Tóm tắt Luận án Tiến sĩ: Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:24

Thêm vào BST

Báo xấu

10
lượt xem 5
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục tiêu nghiên cứu của luận án "Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu" trình bày các nội dung chính sau: Tổng quan về tóm tắt văn bản; Các kiến thức nền tảng; Phát triển các phương pháp tóm tắt đơn văn bản hướng trích rút; Phát triển phương pháp tóm tắt đơn văn bản hướng tóm lược; Phát triển các phương pháp tóm tắt đa văn bản.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Tóm tắt Luận án Tiến sĩ: Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu

MỞ ĐẦU 1. Bối cảnh nghiên cứu Trong kỷ nguyên số và mạng Internet phát triển mạnh mẽ như hiện nay, các tài nguyên trên internet như các trang web, đánh giá của người dùng, tin tức, blog, mạng xã hội,... là những nguồn dữ liệu văn bản to lớn. Bên cạnh đó, có một khối lượng nội dung văn bản phong phú khác trên các kho lưu trữ như các bài báo tin tức, tiểu thuyết, sách, văn bản pháp luật, tài liệu y sinh, bài báo khoa học,... Các nội dung văn bản này tăng lên theo cấp số nhân hàng ngày. Do đó, người dùng mất rất nhiều thời gian để tìm kiếm thông tin mà mình mong muốn. Kết quả là người dùng thậm chí không thể đọc và hiểu hết được tất cả nội dung văn bản kết quả tìm kiếm. Có nhiều thông tin bị lặp lại hoặc không quan trọng trong các văn bản kết quả tìm kiếm. Do đó, việc tóm tắt và cô đọng các nguồn văn bản trở nên cấp thiết và quan trọng hơn rất nhiều. Tóm tắt văn bản thủ công là một nhiệm vụ tốn kém và tiêu tốn nhiều thời gian và công sức của con người. Trên thực tế, con người cũng rất khó tóm tắt thủ công với lượng dữ liệu văn bản khổng lồ này [1]. Để giải quyết các vấn đề này, các phương pháp tóm tắt văn bản tự động được quan tâm nghiên cứu để phát triển các hệ thống tóm tắt văn bản tự động. Mục tiêu chính của các hệ thống tóm tắt văn bản tự động là tạo ra bản tóm tắt bao gồm các ý chính của một văn bản hoặc nhiều văn bản đầu vào và thông tin lặp lại ít nhất [2,3]. Các hệ thống tóm tắt văn bản tự động sinh ra các bản tóm tắt giúp người dùng nắm được những điểm chính của văn bản gốc mà không cần phải đọc toàn bộ văn bản. Người dùng sẽ được hưởng lợi từ các bản tóm tắt được sinh ra tự động, tiết kiệm được nhiều thời gian và công sức. Các hệ thống tóm tắt văn bản tự động hiện nay có thể được chia thành hai loại là tóm tắt đơn văn bản và tóm tắt đa văn bản. Tóm tắt đơn văn bản sinh ra bản tóm tắt từ một văn bản đầu vào, trong khi tóm tắt đa văn bản sinh ra bản tóm tắt từ một tập các văn bản đầu vào. Các hệ thống tóm tắt văn bản tự động này được phát triển bằng việc áp dụng một trong các phương pháp tiếp cận chủ yếu là tóm tắt văn bản hướng trích rút và tóm tắt văn bản hướng tóm lược.  Tóm tắt văn bản hướng trích rút: Là phương pháp lựa chọn những câu quan trọng nhất trong một văn bản nguồn (hoặc một tập văn bản nguồn) và sử dụng các câu này để sinh bản tóm tắt. Phương pháp này bao gồm các nhiệm vụ xử lý chính như: Tạo một biểu diễn thích hợp cho văn bản đầu vào, cho điểm các câu, trích rút các câu có điểm cao. Các hệ thống tóm tắt văn bản hướng trích rút có thể chia thành các phương pháp chủ yếu sau:  Phương pháp dựa trên thống kê.  Phương pháp dựa trên khái niệm.  Phương pháp dựa trên chủ đề.  Phương pháp dựa trên trọng tâm hay phân cụm câu.  Phương pháp dựa trên đồ thị.  Phương pháp dựa trên ngữ nghĩa.  Phương pháp dựa trên học máy.  Phương pháp dựa trên học sâu. Các hệ thống tóm tắt hướng trích rút này có ưu điểm là thực thi đơn giản, nhanh và cho độ chính xác cao vì phương pháp này thực hiện trích rút trực tiếp các câu để người đọc có thể đọc bản tóm tắt với các thuật ngữ chính xác có trong văn bản gốc. Tuy nhiên, phương pháp cận này có những hạn chế cần cần quan tâm như: Vấn đề dư thừa thông tin trong một số câu tóm tắt, các câu được trích rút có thể dài hơn mức trung bình, vấn đề xung đột về thời gian trong bài toán tóm tắt đa văn bản vì các bản tóm tắt trích rút được chọn từ nhiều văn bản đầu vào khác nhau, thiếu ngữ nghĩa và tính liên kết trong các câu tóm tắt vì liên kết không chính xác giữa các câu.  Tóm tắt văn bản hướng tóm lược: Phương pháp tiếp cận này biểu diễn văn bản đầu vào ở dạng trung gian, sau đó sinh bản tóm tắt với các từ và câu khác với các câu trong văn bản nguồn [28]. Các hệ thống tóm tắt hướng tóm lược sinh ra bản tóm tắt bằng cách hiểu các khái niệm chính trong văn bản đầu vào sử dụng các phương pháp xử lý ngôn ngữ tự nhiên, sau đó diễn giải văn bản để diễn đạt các khái niệm đó với số từ ít hơn và sử dụng ngôn ngữ rõ ràng [29,30]. Một hệ thống tóm tắt tóm lược có thể bao gồm các nhiệm vụ xử lý chính sau: Biểu diễn ngữ nghĩa văn bản và sử dụng các kỹ thuật sinh ngôn ngữ tự nhiên để sinh bản tóm tắt 1
gần với các bản tóm tắt của con người tạo ra [31]. Các nghiên cứu theo phương pháp tiếp cận này có thể chia thành các loại chính sau:  Phương pháp dựa trên cấu trúc.  Phương pháp dựa trên ngữ nghĩa.  Phương pháp dựa trên học sâu. Ưu điểm của các phương pháp tóm tắt hướng tóm lược là sinh ra các bản tóm tắt tốt hơn với các từ có thể không có trong văn bản gốc bằng cách sử dụng các biểu diễn dựa trên diễn giải, nén. Bản tóm tắt được sinh ra gần với bản tóm tắt thủ công của con người hơn. Tuy nhiên, việc sinh một bản tóm tắt tóm lược có chất lượng tốt là rất khó khăn. Các hệ thống tóm tắt tóm lược có chất lượng tốt rất khó phát triển vì các hệ thống này yêu cầu sử dụng kỹ thuật sinh ngôn ngữ tự nhiên mà kỹ thuật này vẫn là một lĩnh vực đang được nghiên cứu phát triển hiện nay. Hầu hết các bản tóm tắt tóm lược đều gặp phải vấn đề lặp từ và không xử lý được vấn đề thiếu từ trong bộ từ vựng một cách thích hợp. Ngoài ra, một phương pháp tiếp cận khác là tóm tắt văn bản dựa trên kỹ thuật nén câu [44,45] cũng đã đạt được những kết quả nhất định. Tuy nhiên, các mô hình tóm tắt văn bản sử dụng các kỹ thuật nén câu yêu cầu chi phí cao. Bên cạnh đó, chất lượng của bản tóm tắt tạo ra phụ thuộc rất nhiều vào chất lượng của các kỹ thuật nén câu được sử dụng. Đối với tiếng Việt, do tính phức tạp và đặc thù riêng của ngôn ngữ nên các nghiên cứu về tóm tắt văn bản tiếng Việt còn hạn chế. Hầu hết các nghiên cứu là các đề tài tốt nghiệp đại học, luận văn thạc sĩ, tiến sĩ và đề tài nghiên cứu khoa học cấp trường, cấp bộ [49,50,51]. Các nghiên cứu được công bố dưới hình thức các bài báo khoa học cho tóm tắt văn bản tiếng Việt còn ít [52,53,54,55,56]. Các nghiên cứu này phần lớn dựa trên hướng trích rút cho bài toán tóm tắt đơn văn bản và chủ yếu dựa vào các đặc trưng của câu như tần suất từ, vị trí câu, từ tiêu đề, độ tương tự,... để chọn ra các câu quan trọng theo tỉ lệ trích rút nên chất lượng văn bản tóm tắt chưa cao. Bên cạnh đó, do chưa có các kho ngữ liệu đủ lớn được công bố chính thức phục vụ cho tóm tắt văn bản tiếng Việt nên hầu hết các thử nghiệm đều dựa trên các kho ngữ liệu tự xây dựng nên việc đánh giá kết quả của các nghiên cứu cũng cần được xem xét kỹ lưỡng. Như vậy, có thể nhận thấy các hệ thống tóm tắt văn bản tự động còn nhiều hạn chế, chính những hạn chế này làm phát sinh những thách thức cần giải quyết đồng thời mở ra các hướng nghiên cứu mới cho bài toán tóm tắt văn bản, đó là:  Thách thức liên quan đến tóm tắt đa văn bản: Tóm tắt đa văn bản là bài toán phức tạp với nhiều vấn đề cần giải quyết như dư thừa thông tin, trình tự thời gian và sắp xếp lại các câu.  Thách thức liên quan đến các ngôn ngữ được hỗ trợ tóm tắt: Hầu hết các hệ thống tóm tắt văn bản tự động đều tập trung vào tóm tắt văn bản tiếng Anh. Đối với các ngôn ngữ khác, các nghiên cứu còn hạn chế và chất lượng của các hệ thống tóm tắt văn bản tự động hiện có cũng cần được cải thiện. Do đó, cần phải phát triển và cải tiến các hệ thống tóm tắt cho các ngôn ngữ không phải tiếng Anh.  Thách thức liên quan đến phương pháp tóm tắt văn bản: Hầu hết các nghiên cứu hiện nay đều tập trung vào phương pháp tóm tắt hướng trích rút, do đó cần nghiên cứu đề xuất và cải thiện các hệ thống tóm tắt dựa trên phương pháp tóm tắt hướng tóm lược và phương pháp tóm tắt hỗn hợp.  Thách thức liên quan đến các đặc trưng thống kê và ngôn ngữ: Cần phát hiện thêm mới các đặc trưng thống kê và ngôn ngữ cho các từ, các câu cho các hệ thống để có thể trích xuất ngữ nghĩa các câu chính từ văn bản nguồn. Bên cạnh đó, vấn đề xử lý trọng số thích hợp cho các đặc trưng mới này cũng là một vấn đề quan trọng quyết định chất lượng của bản tóm tắt cuối cùng.  Thách thức liên quan đến việc sử dụng các kỹ thuật học sâu và vấn đề thiếu dữ liệu thử nghiệm cho các mô hình: Do các mô hình học sâu thường có kiến trúc phức tạp, khối lượng xử lý tính toán lớn nên các hệ thống tóm tắt cũng đòi hỏi tài nguyên lớn để thực thi. Bên cạnh đó, các mô hình học sâu yêu cầu lượng dữ liệu huấn luyện lớn để đảm bảo chất lượng của bản tóm tắt đầu ra nhưng thực tế hiện nay các dữ liệu này khan hiếm (hoặc nếu có thì cũng không đủ lớn) để huấn luyện các mô hình. Đây là một thách thức nghiên cứu quan trọng khi xây dựng các hệ thống tóm tắt văn bản tự động sử dụng các kỹ thuật hiện đại với một lượng dữ liệu huấn luyện nhỏ.  Thách thức liên quan đến chất lượng của bản tóm tắt sinh ra: Bản tóm tắt cần đạt được sự cân bằng giữa khả năng đọc, tỷ lệ nén và chất lượng tóm tắt tốt. Do đó, cần phải cải thiện chất lượng bản tóm tắt về ngữ nghĩa do các từ không rõ nghĩa, từ đồng nghĩa hoặc từ nhiều nghĩa gây ra.  Thách thức liên quan đến phương pháp đánh giá bản tóm tắt tạo ra: Đánh giá bản tóm tắt (tự động hoặc thủ công) là một nhiệm vụ khó khăn, đó là khó khăn trong việc xác định và sử dụng một độ đo tiêu 2
chuẩn có độ tin cậy cao để đánh giá các bản tóm tắt được sinh ra từ hệ thống tóm tắt văn bản tự động. Do đó, cần có các phương pháp đánh giá tự động các bản tóm tắt do các hệ thống tóm tắt sinh ra. Hầu hết các nghiên cứu đã cố gắng phát triển mới và cải tiến các phương pháp tóm tắt văn bản hiện có nhằm tạo ra các hệ thống tóm tắt văn bản hiệu quả. Các phương pháp tóm tắt văn bản này thường là trích rút hoặc tóm lược áp dụng cho tóm tắt đơn văn bản và tóm tắt đa văn bản. Do đó, việc nghiên cứu, phát triển các mô hình tóm tắt văn bản hiệu quả là rất cần thiết và có ý nghĩa to lớn. 2. Động lực thúc đẩy Từ bối cảnh nghiên cứu đã phân tích trên, nghiên cứu sinh nhận thấy bài toán tóm tắt văn bản tự động đóng một vai trò quan trọng trong xử lý ngôn ngữ tự nhiên cũng như khai phá dữ liệu văn bản và đặt ra nhiều thách thức cho việc phát triển các phương pháp tóm tắt văn bản hiệu quả. Mặc dù, hàng năm các nhà nghiên cứu đã đề xuất phát triển được một số giải pháp mới hoặc cải tiến các giải pháp hiện có để nâng cao hiệu quả và độ chính xác cho các mô hình tóm tắt văn bản nhưng các bản tóm tắt được sinh ra của các mô hình vẫn khác xa so với các bản tóm tắt do con người tạo ra. Một trong các nguyên nhân đó là dữ liệu thử nghiệm cho các mô hình tóm tắt của bài toán tóm tắt văn bản. Vấn đề thiếu dữ liệu hay dữ liệu bị nhiễu làm cho hiệu quả tóm tắt của các mô hình tóm tắt chưa cao. Bên cạnh đó, vấn đề biểu diễn dữ liệu văn bản đầu vào cũng đóng vai trò quan trọng quyết định hiệu quả của các mô hình tóm tắt. Một lý do khác có vai trò quan trọng không kém là phần lớn các nghiên cứu về tóm tắt văn bản hiện nay được thực hiện cho tóm tắt văn bản tiếng Anh, các nghiên cứu về bài toán tóm tắt văn bản tiếng Việt còn khiêm tốn. Do đó, việc nghiên cứu phát triển các mô hình tóm tắt văn bản hiệu quả áp dụng cho tóm tắt văn bản tiếng Anh và tiếng Việt càng có ý nghĩa to lớn, nhất là trong bối cảnh các kỹ thuật học máy, các mô hình học sâu và các kỹ thuật hiện đại khác đang được phát triển mạnh như hiện nay. Chính vì những lý do đó, đề tài “Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu” được đặt ra hết sức cấp thiết và có tính ứng dụng cao trong thực tiễn. 3. Đối tượng và phạm vi nghiên cứu  Đối tượng nghiên cứu:  Các đặc trưng của văn bản.  Các bộ dữ liệu thử nghiệm cho tóm tắt đơn văn bản, tóm tắt đa văn bản tiếng Anh và tiếng Việt.  Các mô hình tóm tắt đơn văn bản, tóm tắt đa văn bản tiếng Anh và tiếng Việt.  Các kỹ thuật áp dụng trong tóm tắt văn bản như: Các phương pháp véc tơ hóa văn bản, các kỹ thuật học máy, học sâu, các mô hình được huấn luyện trước, cơ chế chú ý, kỹ thuật tìm kiếm, phương pháp loại bỏ thông tin trùng lặp.  Các phương pháp đánh giá độ chính xác của văn bản tóm tắt.  Phạm vi nghiên cứu:  Đề xuất các mô hình tóm tắt đơn văn bản hướng trích rút.  Đề xuất mô hình tóm tắt đơn văn bản hướng tóm lược.  Đề xuất các mô hình tóm tắt đa văn bản hướng trích rút.  Đề xuất các mô hình tóm tắt đa văn bản hướng tóm lược. Các mô hình tóm tắt văn bản đề xuất này đều được áp dụng cho tóm tắt văn bản tiếng Anh và tiếng Việt. 4. Mục tiêu nghiên cứu Luận án nghiên cứu đề xuất các mô hình tóm tắt đơn văn bản, tóm tắt đa văn bản cho tóm tắt văn bản tiếng Anh và tiếng Việt. Cụ thể:  Nghiên cứu đề xuất các đặc trưng quan trọng sử dụng cho các mô hình tóm tắt văn bản.  Nghiên cứu các kỹ thuật học máy, học sâu, các mô hình được huấn luyện trước để véc tơ hóa văn bản cho các mô hình tóm tắt văn bản.  Đề xuất các mô hình tóm tắt đơn văn bản hướng trích rút, hướng tóm lược áp dụng tóm tắt cho tóm tắt văn bản tiếng Anh và tiếng Việt.  Đề xuất mô hình tóm tắt đa văn bản hướng trích rút cho tóm tắt văn bản tiếng Anh và tiếng Việt. 3
Đề xuất các mô hình tóm tắt đa văn bản hướng tóm lược cho tóm tắt văn bản tiếng Anh và tiếng Việt sử dụng các mô hình tóm tắt đơn văn bản được huấn luyện trước. 5. Phương pháp nghiên cứu  Thu thập, chuẩn bị dữ liệu thử nghiệm cho các mô hình tóm tắt văn bản tiếng Anh và tiếng Việt.  Nghiên cứu các hướng tiếp cận tóm tắt văn bản tiếng Anh và tiếng Việt liên quan, trong đó tập trung vào các hướng tiếp cận hiện đại.  Phân tích ưu điểm, nhược điểm của các phương pháp tóm tắt hiện tại để đề xuất các mô hình tóm tắt văn bản tiếng Anh và tiếng Việt hiệu quả.  Nghiên cứu lựa chọn phương pháp đánh giá hiệu quả của các mô hình tóm tắt văn bản.  Cài đặt thử nghiệm một số phương pháp tóm tắt văn bản hiện có, các mô hình tóm tắt đề xuất trên các bộ dữ liệu thử nghiệm.  Đánh giá và so sánh kết quả thử nghiệm của các mô hình để đề xuất các mô hình tóm tắt hiệu quả. 6. Nội dung nghiên cứu  Nghiên cứu các kỹ thuật học máy, học sâu sử dụng để phát triển các mô hình tóm tắt văn bản.  Nghiên cứu đề xuất thêm mới các đặc trưng quan trọng của văn bản cho mô hình tóm tắt văn bản.  Nghiên cứu đề xuất các mô hình tóm tắt đơn văn bản hướng trích rút, hướng tóm lược hiệu quả cho tóm tắt văn bản tiếng Anh và tiếng Việt.  Nghiên cứu đề xuất các mô hình tóm tắt đa văn bản hướng trích rút, hướng tóm lược hiệu quả cho tóm tắt văn bản tiếng Anh và tiếng Việt. 7. Ý nghĩa khoa học và ý nghĩa thực tiễn  Ý nghĩa khoa học: Nghiên cứu chuyên sâu về các kỹ thuật học máy, học sâu, các đặc trưng của văn bản để đề xuất phát triển các mô hình tóm tắt văn bản hiệu quả cho tiếng Anh và tiếng Việt.  Ý nghĩa thực tiễn: Đề xuất các đặc trưng quan trọng của văn bản sử dụng cho các mô hình tóm tắt văn bản. Đề xuất các mô hình tóm tắt văn bản hiệu quả cho tóm tắt văn bản tiếng Anh và tiếng Việt. Các mô hình đề xuất mới có thể sử dụng để xây dựng các hệ thống phần mềm tóm tắt hiệu quả đáp ứng tốt các yêu cầu trong thực tiễn. Ngoài ra, hướng tiếp cận tinh chỉnh mô hình tóm tắt đơn văn bản được huấn luyện trước bằng việc huấn luyện tiếp mô hình tóm tắt đơn văn bản trên các bộ dữ liệu thử nghiệm của tóm tắt đa văn bản do nghiên cứu sinh đề xuất có thể mở ra một hướng mới để phát triển các mô hình tóm tắt đa văn bản hiệu quả trong điều kiện thiếu dữ liệu thử nghiệm. 8. Những đóng góp chính của luận án Với mục tiêu đặt ra, luận án đã đạt được một số kết quả đóng góp vào việc nghiên cứu phát triển mở rộng các hệ thống tóm tắt văn bản cho ngôn ngữ tiếng Anh và tiếng Việt. Các kết quả chính có thể khái quát là:  Đề xuất ba mô hình tóm tắt đơn văn bản hướng trích rút, đó là RoPhoBERT_MLP_ESDS, mBERT_CNN_ESDS và mBERT-Tiny_seq2seq_DeepQL_ESDS. Mô hình RoPhoBERT_MLP_ESDS sử dụng các mô hình tối ưu của mô hình BERT được huấn luyện trước áp dụng cho ngôn ngữ tiếng Anh và tiếng Việt để véc tơ hóa văn bản, mô hình phân loại với mạng Perceptron nhiều lớp (MLP), kết hợp với đặc trưng vị trí câu và phương pháp độ liên quan cận biên tối đa (MMR) để loại bỏ thông tin trùng lặp và lựa chọn câu đưa vào bản tóm tắt. Mô hình mBERT_CNN_ESDS sử dụng mô hình BERT được huấn luyện trước hỗ trợ đa ngôn ngữ, mạng nơ ron tích chập, mô hình chuỗi sang chuỗi (seq2seq), lớp mạng nơ ron kết nối đầy đủ (FC) kết hợp đặc trưng trọng số của từ TF-IDF và phương pháp MMR để lựa chọn câu đưa vào bản tóm tắt. Mô hình mBERT-Tiny_seq2seq_DeepQL_ESDS sử dụng mô hình BERT thu nhỏ, BERT đa ngôn ngữ để véc tơ hóa văn bản đầu vào, mạng CNN, seq2seq, lớp FC, kết hợp kỹ thuật học tăng cường và phương pháp MMR để lựa chọn câu đưa vào bản tóm tắt.  Đề xuất một mô hình tóm tắt đơn văn bản hướng tóm lược PG_Feature_ASDS. Mô hình này sử dụng các kỹ thuật học sâu, cơ chế chú ý, kỹ thuật loại bỏ thông tin trùng lặp, kết hợp các đặc trưng tần suất xuất hiện của từ, vị trí câu trong văn bản để sinh bản tóm tắt tóm lược. 4
 Đề xuất một mô hình tóm tắt đa văn bản hướng trích rút Kmeans_Centroid_EMDS. Mô hình này thực hiện phân cụm tập văn bản sử dụng các kỹ thuật học máy là phân cụm K-means, phương pháp dựa trên trung tâm (Centroid-based), MMR và đặc trưng vị trí câu để tạo văn bản tóm tắt cho tập đa văn bản.  Đề xuất hai mô hình tóm tắt đa văn bản hướng tóm lược, đó là PG_Feature_AMDS và Ext_Abs_AMDS-mds-mmr. Mô hình PG_Feature_AMDS sử dụng mô hình tóm tắt đơn văn bản hướng tóm lược PG_Feature_ASDS đã đề xuất là mô hình được huấn luyện trước, mô hình PG_Feature_ASDS được tinh chỉnh bằng việc huấn luyện tiếp trên các bộ dữ liệu thử nghiệm tóm tắt đa văn bản tương ứng. Mô hình Ext_Abs_AMDS-mds-mmr sử dụng mô hình hỗn hợp được huấn luyện trước được xây dựng dựa trên các mô hình tóm tắt đơn văn bản được tinh chỉnh từ các mô hình tóm tắt đơn văn bản đã đề xuất. Các mô hình tóm tắt đơn văn bản, mô hình hỗn hợp này được huấn luyện tiếp trên các bộ dữ liệu thử nghiệm tóm tắt đa văn bản tương ứng để xây dựng mô hình tóm tắt đa văn bản hướng tóm lược hiệu quả. Các mô hình đề xuất phát triển của luận án đều được áp dụng hiệu quả cho tóm tắt văn bản tiếng Anh và tiếng Việt. 9. Bố cục của luận án Với những đóng góp chính được trình bày ở trên, bố cục của luận án bao gồm: Phần mở đầu, năm chương, phần kết luận, tài liệu tham khảo và phần phụ lục. Cụ thể như sau: Phần mở đầu: Trình bày những điểm quan trọng về bối cảnh nghiên cứu, động lực thúc đẩy, tổng quan về đối tượng nghiên cứu, phạm vi nghiên cứu, mục tiêu nghiên cứu, phương pháp nghiên cứu, nội dung nghiên cứu, ý nghĩa khoa học và ý nghĩa thực tiễn của luận án. Những tồn tại, thách thức và phương pháp giải quyết của luận án. Ngoài ra, phần này cũng trình bày những đóng góp chính và bố cục của luận án. Chương 1. Tổng quan về tóm tắt văn bản: Chương này trình bày các vấn đề tổng quan về tóm tắt văn bản trong xử lý ngôn ngữ tự nhiên, một số phương pháp đánh giá văn bản tóm tắt tự động, các phương pháp kết hợp các văn bản của tập đa văn bản, các phương pháp tóm tắt văn bản hướng trích rút cơ sở, các bộ dữ liệu được sử dụng để thử nghiệm cho các mô hình tóm tắt văn bản đề xuất. Những kiến thức này là cơ sở để phát triển các nghiên cứu đề xuất của luận án. Chương 2. Các kiến thức nền tảng: Chương này trình bày các kiến thức nền tảng về các kỹ thuật học sâu cơ sở, các mô hình ngôn ngữ dựa trên học sâu được huấn luyện trước. Tiếp theo, chương này trình bày về kỹ thuật học tăng cường Deep Q-Learning, tìm kiếm Beam, phương pháp MMR loại bỏ thông tin trùng lặp trong bản tóm tắt. Những kiến thức nền tảng này là cơ sở để phát triển các phương pháp tóm tắt văn bản đề xuất trong luận án. Chương 3. Phát triển các phương pháp tóm tắt đơn văn bản hướng trích rút: Chương này trình bày về bài toán tóm tắt đơn văn bản hướng trích rút, đề xuất phát triển ba mô hình tóm tắt đơn văn bản hướng trích rút sử dụng kết hợp các kỹ thuật học sâu, các mô hình được huấn luyện trước, các đặc trưng của văn bản và phương pháp loại bỏ thông tin trùng lặp để áp dụng tóm tắt hiệu quả cho văn bản tiếng Anh và tiếng Việt. Chương 4. Phát triển phương pháp tóm tắt đơn văn bản hướng tóm lược: Chương này giới thiệu về bài toán tóm tắt đơn văn bản hướng tóm lược, đề xuất phát triển mô hình tóm tắt đơn văn bản hướng tóm lược sử dụng kết hợp các kỹ thuật học sâu, các cơ chế xử lý trùng lặp thông tin, các đặc trưng của văn bản để áp dụng hiệu quả cho tóm tắt hướng tóm lược văn bản tiếng Anh và tiếng Việt. Mô hình tóm tắt đơn văn bản này sẽ được sử dụng để phát triển các mô hình tóm tắt đa văn bản đề xuất của luận án. Chương 5. Phát triển các phương pháp tóm tắt đa văn bản: Chương này giới thiệu về bài toán tóm tắt đa văn bản, đề xuất phát triển một mô hình tóm tắt đa văn bản hướng trích rút, hai mô hình tóm tắt hướng tóm lược sử dụng các kỹ thuật học máy, học sâu và các đặc trưng của văn bản, các cơ chế xử lý thông tin trùng lặp áp dụng hiệu quả cho tóm tắt đa văn bản tiếng Anh và tiếng Việt. Hai mô hình tóm tắt đa văn bản hướng tóm lược được đề xuất dựa trên các mô hình tóm tắt đơn văn bản đã đề xuất được huấn luyện trước. Phần kết luận: Trình bày các kết quả đạt được, những khó khăn tồn tại và hướng phát triển tiếp của các nghiên cứu trong luận án. Phần phụ lục: Trình bày biểu đồ biểu diễn phân tích các bộ dữ liệu thử nghiệm và nội dung các văn bản nguồn của các mẫu tóm tắt thử nghiệm trên các bộ dữ liệu tương ứng của các mô hình tóm tắt đề xuất đã trình bày trong luận án. Luận án trình bày các phương pháp tóm tắt đơn văn bản hướng trích rút, tóm tắt đơn văn bản hướng tóm lược, tóm tắt đa văn bản hướng trích rút và hướng tóm lược cho bài toán tóm tắt văn bản. Có thể nói, nội dung của luận án đã đạt được các mục tiêu đặt ra. 5
Chương 1. TỔNG QUAN VỀ TÓM TẮT VĂN BẢN 1.1. Giới thiệu về tóm tắt văn bản 1.1.1. Giới thiệu bài toán tóm tắt văn bản Tóm tắt văn bản là quá trình tạo ra một bản mô tả ngắn gọn, súc tích từ một hoặc nhiều văn bản gốc nhưng vẫn giữ được nội dung chính, quan trọng mà văn bản gốc đề cập tới. 1.1.2. Phân loại bài toán tóm tắt văn bản Tóm tắt đơn văn bản, tóm tắt đa văn bản, tóm tắt văn bản hướng trích rút, tóm tắt văn bản hướng tóm lược, tóm tắt đơn ngôn ngữ,... 1.1.3. Các bước thực hiện trong tóm tắt văn bản Thông thường gồm 3 bước: Phân tích, biến đổi, sinh văn bản tóm tắt. 1.1.4. Một số đặc trưng của văn bản Vị trí câu, TF-IDF, câu trung tâm. 1.2. Một số phương pháp đánh giá văn bản tóm tắt tự động 1.2.1. Phương pháp dựa trên độ tương tự về nội dung Đánh giá độ tương tự về nội dung của văn bản kết quả được sinh ra bởi hệ thống đang xét. 1.2.2. Phương pháp dựa trên độ tương quan phù hợp Đánh giá hệ thống tóm tắt văn bản dựa trên các câu truy vấn. 1.2.3. Phương pháp ROUGE ROUGE được sử dụng như một độ đo tiêu chuẩn để đánh giá hiệu quả của các hệ thống tóm tắt văn bản. Các độ đo thường được sử dụng phổ biến là: Độ đo F1 của Rouge-N (ký hiệu R-N), độ đo F1 của Rouge-L (ký hiệu R-L), độ đo F1 của Rouge-St (ký hiệu R-St), độ đo F1 của Rouge-SUt (ký hiệu R-SUt), trong đó: thường N = 1 ÷ 4, t = 4 (giá trị t nhỏ sẽ hạn chế được tình trạng tạo các cặp từ vô nghĩa). Luận án sử dụng các độ đo R-1, R-2, R-L, R-S4 và R-SU4 để đánh giá hiệu quả của các mô hình tóm tắt văn bản đề xuất. 1.3. Các phương pháp kết hợp văn bản trong tóm tắt đa văn bản - Phương pháp thứ nhất: Kết hợp tất cả văn bản đầu vào thành một văn bản duy nhất trước. - Phương pháp thứ hai: Tóm tắt từng đơn văn bản, kết hợp lại thành một bản tóm tắt tổng hợp. 1.4. Các phương pháp tóm tắt văn bản hướng trích rút cơ sở PageRank, Textrank, LexRank, Lead-Based. 1.5. Các bộ dữ liệu thử nghiệm 1.5.1. Các bộ dữ liệu văn bản tiếng Anh CNN/Daily Mail, DUC 2001, DUC 2002, DUC 2004, DUC2007. 1.5.2. Các bộ dữ liệu văn bản tiếng Việt Baomoi, Bộ dữ liệu 200 cụm (gọi là bộ dữ liệu Corpus_TMV), ViMs. 1.6. Kết luận chương 1 Chương này trình bày tổng quan về tóm tắt văn bản, các bộ dữ liệu thử nghiệm. Các kiến thức này là cơ sở để đề xuất và phát triển các nghiên cứu của luận án. 6
Chương 2. CÁC KIẾN THỨC NỀN TẢNG 2.1. Các kỹ thuật học sâu cơ sở 2.1.1. Mạng Perceptron nhiều lớp 2.1.2. Mạng nơ ron tích chập 2.1.2.1. Giới thiệu mạng nơ ron tích chập Kiến trúc thường gồm lớp: Tích chập, lớp ReLU, lớp Pooling, lớp FC. 2.1.2.2. Mạng CNN cho bài toán xử lý ngôn ngữ tự nhiên Kiến trúc mạng CNN cho bài toán xử lý ngôn ngữ tự nhiên được mô tả trong [85]. 2.1.3. Mạng nơ ron hồi quy 2.1.3.1. Mô hình mạng nơ ron hồi quy RNN [87] là mô hình có nhớ, có khả năng nhớ được thông tin đã tính toán trước đó. 2.1.3.2. Huấn luyện mạng nơ ron hồi quy RNN được huấn luyện bằng thuật toán lan truyền ngược liên hồi (BPTT) [80]. 2.1.4. Một số biến thể của RNN 2.1.4.1. Mạng LSTM Kiến trúc một tế bào nhớ của LSTM (LSTM cell) được biểu diễn ở hình 2.5. Hình 2.5. Kiến trúc tế bào nhớ LSTM (nguồn:[Internet]) Hình 2.7. Kiến trúc mạng biLSTM [88] Trong hình 2.5: Cổng quên ( ft ), cổng vào ( it ), cổng ra ( ot ). Ở trạng thái t: Đầu vào: ct 1 , ht 1 , xt ; với: xt là đầu vào ở trạng thái 𝑡, ct 1 , ht 1 là đầu ra của lớp trước. Đầu ra: ct , ht là trạng thái nhớ, trạng thái ẩn. 2.1.4.2. Mạng biLSTM Kiến trúc tổng quan mạng biLSTM được biểu diễn như trong Hình 2.7 ở trên. 2.1.4.3. Mạng GRU Mạng GRU [89,90] gồm tập các tế bào nhớ GRU được kết nối hồi quy. 2.1.4.4. Mạng biGRU Kiến trúc mạng biGRU [89,90] giống như mạng biLSTM nhưng chỉ khác là mỗi mạng là mạng GRU. 2.1.5. Mô hình chuỗi sang chuỗi cơ bản Mô hình chuỗi sang chuỗi (seq2seq) [93] là mô hình học sâu gồm 2 thành phần: bộ mã hóa và bộ giải mã. 2.1.6. Cơ chế chú ý 2.1.7. Cơ chế tự chú ý và mô hình Transformer 2.1.7.1. Cơ chế tự chú ý Cơ chế tự chú ý (self-attention) giúp cho mô hình nắm bắt được sự liên quan giữa các từ trong câu. 7
2.1.7.2. Kiến trúc của Transformer Kiến trúc Transformer [97] gồm 2 thành phần mã hóa và giải mã, sử dụng cơ chế chú ý và mã hóa vị trí các từ trong chuỗi. Cả 2 thành phần mã hóa và giải mã gồm nhiều lớp xếp chồng 2.2. Các mô hình ngôn ngữ dựa trên học sâu được huấn luyện trước 2.2.1. Mã hóa từ 2.2.2. Phương pháp Word2Vec Word2Vec [99] kết hợp 2 mô hình học mã hóa từ: Skip-Gram [101] và CboW [101]. 2.2.3. Mô hình BERT 2.2.3.1 Giới thiệu BERT [102] (Bidirectional Encoder Representations from Transformer) là mô hình biểu diễn mã hóa hai chiều dựa trên Transformer. Kiến trúc BERT được biểu diễn như ở hình 2.17 dưới đây. 2.2.3.2 Kiến trúc BERT Hình 2.17. Kiến trúc mô hình BERT [102] Hình 2.18. Minh họa biểu diễn đầu vào của BERT [102] Trong Hình 2.17, Ei là biểu diễn các mã hóa từ, Trm là các véc tơ biểu diễn trung gian cho mỗi từ tại mỗi tầng Transformer, Ti là đầu ra cuối cùng. Có 2 mô hình BERT: BERTBASE, BERTLARGE. 2.2.3.3 Biểu diễn đầu vào Hình 2.18 biểu diễn đầu vào của BERT: Đầu vào, mã hóa từ vựng, mã hóa phân đoạn, mã hóa vị trí của từ. 2.2.3.4. Biểu diễn đầu ra: Với mỗi từ đầu vào thứ i ( i  1, N ), đầu ra là véc tơ trạng thái ẩn Ti tương ứng. 2.2.3.5. BERT được huấn luyện trước BERT được huấn luyện trước (pre-training BERT) với 2 nhiệm vụ dự đoán không giám sát là: Mô hình dự đoán từ bị che (Masked LM) và dự đoán câu tiếp theo (NSP). 2.2.3.6. Tinh chỉnh BERT: Đóng băng một vài lớp trước đó; giảm tốc độ học. 2.2.4. Một số phiên bản mô hình của BERT BERT đã ngôn ngữ [105], RoBERTa [106], PhoBERT [110], các mô hình BERT thu nhỏ [111]. 2.3. Kỹ thuật học tăng cường Deep Q-Learning 2.3.1. Học tăng cường Q-Learning 2.3.2. Thuật toán học tăng cường Q-Learning 2.4. Tìm kiếm Beam 2.5. Phương pháp độ liên quan cận biên tối đa 2.6. Kết luận chương 2 Chương này trình bày về các kỹ thuật học máy, các kỹ thuật học sâu cơ sở, các mô hình ngôn ngữ dựa trên học sâu được huấn luyện trước. Các kiến thức cơ sở này là nền tảng để phát triển các nghiên cứu đề xuất của luận án. 8
Chương 3. PHÁT TRIỂN CÁC PHƯƠNG PHÁP TÓM TẮT ĐƠN VĂN BẢN HƯỚNG TRÍCH RÚT 3.1. Giới thiệu bài toán và hướng tiếp cận 3.2. Mô hình tóm tắt đơn văn bản hướng trích rút RoPhoBERT_MLP_ESDS 3.2.1. Giới thiệu mô hình 3.2.2. Mô hình tóm tắt văn bản đề xuất Hình 3.2. Mô hình tóm tắt đơn văn bản hướng trích rút RoPhoBERT_MLP_ESDS 3.2.2.1. Véc tơ hóa dữ liệu: Sử dụng các mô hình tối ưu của BERT: RoBERTa, PhoBERT. 3.2.2.2. Huấn luyện: Hệ thống sử dụng mô hình mạng MLP có 1 lớp vào, 1 lớp ẩn và 1 lớp ra. 3.2.2.3. Sinh văn bản tóm tắt: Phương pháp MMR đề xuất cùng với vị trí câu để loại bỏ trùng lặp. 3.2.3. Thử nghiệm mô hình 3.2.3.1. Dữ liệu thử nghiệm: Bộ dữ liệu CNN (tiếng Anh) và Baomoi (tiếng Việt). 3.2.3.2. Tiền xử lý dữ liệu 3.2.3.3. Thiết kế thử nghiệm CNN Baomoi Mô hình R-1 R-2 R-L R-1 R-2 R-L Mô hình 1 (USE_T + MLP) 28,9 10,3 19,3 - - - Mô hình 2 (USE_T + MLP + MMR + Vị trí câu) 30,1 11,5 20,1 - - - Mô hình 3 (RoBERTa/PhoBERT + MLP) 31,36 11,69 28,22 52,509 24,695 37,794 Mô hình 4 (RoBERTa/PhoBERT + MLP + MMR + 32,18 12,31 28,87 52,511 24,696 37,796 Vị trí câu) Bảng 3.3. Kết quả thử nghiệm với các mô hình xây dựng. Ký hiệu ‘-’ biểu diễn mô hình mà luận án không thử nghiệm trên tập dữ liệu tương ứng 9
3.2.4. Đánh giá và so sánh kết quả CNN Baomoi Phương pháp R-1 R-2 R-L R-1 R-2 R-L LexRank* 22,9 6,6 17,2 38,5 17,0 28,9 TextRank* 26,0 7,3 19,2 44,7 19,2 32,9 LEAD* 29,0 10,7 19,3 46,5 20,3 30,8 Cheng và Lapata [125] 28,4 10,0 25,0 - - - LEAD [125] 29,1 11,1 25,9 - - - REFRESH [125] 30,4 11,7 26,9 - - - USE_T + MLP* 28,9 10,3 19,3 - - - USE_T + MLP + MMR + Vị trí câu* 30,1 11,5 20,1 - - - RoBERTa/PhoBERT+MLP* 31,36 11,69 28,22 52,509 24,695 37,794 RoBERTa/PhoBERT+MLP+MMR+Vị trí câu 32,18 12,31 28,87 52,511 24,696 37,796 Bảng 3.6. So sánh và đánh giá kết quả các phương pháp. Ký hiệu ‘*’, ‘-’ biểu diễn các phương pháp được thử nghiệm, không được thử nghiệm trên các bộ dữ liệu tương ứng 3.3. Mô hình tóm tắt đơn văn bản hướng trích rút mBERT_CNN _ESDS 3.3.1. Giới thiệu mô hình 3.3.2. Mô hình tóm tắt văn bản đề xuất Hình 3.4. Mô hình tóm tắt văn bản hướng trích rút mBERT_CNN_ESDS 3.3.2.1. Véc tơ hóa từ: Sử dụng mBERT 3.3.2.2. Mô hình phân loại câu: Convolution, k-Max Pooling, Encoder-Decoder, dropout, lớp FC’, FC. 3.3.2.3. Sinh văn bản tóm tắt: Để loại bỏ thông tin dư thừa, sử dụng phương pháp MMR đề xuất. 3.3.3. Thử nghiệm mô hình 3.3.3.1. Các bộ dữ liệu thử nghiệm: Tiếng Anh: DUC 2001 [72], DUC 2002 [73], CNN [74]; Tiếng Việt: Baomoi. 3.3.3.2. Tiền xử lý dữ liệu 3.3.3.3. Thiết kế thử nghiệm DUC 2001/DUC 2002 Phương pháp R-1 R-2 R-L Laugier và cộng sự [129] 42,48 16,96 - Laugier và cộng sự [129]* 41,83 16,78 - mBERT+CNN+Encoder-Decoder+FC+TF-IDF+MMR 48,29 23,40 43,80 Bảng 3.8. Kết quả thử nghiệm của các phương pháp trên bộ dữ liệu DUC 2001 và DUC 2002. Ký hiệu ‘*’,‘-’ biểu diễn phương pháp được thử nghiệm, không được thử nghiệm trên các bộ dữ liệu tương ứng 10
Kết quả thử nghiệm mô hình đề xuất trên bộ dữ liệu tiếng Việt Baomoi với các kết quả độ đo R-1, R-2 và R-L thu được lần lượt là 54,67%, 25,26% và 37,48%. 3.3.4. Đánh giá và so sánh kết quả CNN Baomoi Phương pháp R-1 R-2 R-L R-1 R-2 R-L LexRank* 22,9 6,6 17,2 38,5 17,0 28,9 TextRank* 26,0 7,3 19,2 44,7 19,2 32,9 LEAD* 29,0 10,7 19,3 46,5 20,3 30,8 Cheng và Lapata [125] 28,4 10,0 25,0 - - - LEAD [125] 29,1 11,1 25,9 - - - REFRESH [125] 30,4 11,7 26,9 - - - mBERT+CNN+FC+TF_IDF 31,62 12,01 28,57 - - - mBERT+CNN+Encoder-Decoder+FC+TF_IDF 31,95 12,69 28,76 - - - mBERT+CNN+FC+TF_IDF+MMR 32,54 12,60 29,52 - - - mBERT+CNN+Encoder-Decoder+FC+ 32,67 13,04 29,53 54,67 25,26 37,48 TF_IDF+MMR Bảng 3.11. So sáng và đánh giá kết quả của các phương pháp. Ký hiệu ‘*’, ‘-’ biểu diễn các phương pháp được thử nghiệm, không được thử nghiệm trên các bộ dữ liệu tương ứng 3.4. Mô hình tóm tắt đơn văn bản hướng trích rút mBERT-Tiny_ seq2seq_DeepQL_ESDS 3.4.1. Giới thiệu mô hình 3.4.2. Mô hình tóm tắt văn bản đề xuất Hình 3.7. Mô hình tóm tắt văn bản hướng trích rút mBERT-Tiny_seq2seq_DeepQL_ESDS 3.4.2.1. Véc tơ hóa từ: Sử dụng BERT-Tiny (tiếng Anh), mBERT (tiếng Việt). 3.4.2.2. Mô hình phân loại câu: Mạng CNN, mô hình seq2seq gồm bộ mã hóa văn bản sử dụng mạng biGRU [89,90] và bộ trích rút câu sử dụng mạng GRU [89,90] với lớp FC. 3.4.2.3. Sinh bản tóm tắt: Sử dụng phương pháp MMR đề xuất để loại bỏ thông tin dư thừa. 3.4.3. Huấn luyện mô hình với kỹ thuật học tăng cường Mô hình huấn luyện với kỹ thuật học tăng cường Deep Q-Learning như trong Hình 3.8. 11
Hình 3.8. Mô hình huấn luyện với kỹ thuật học tăng cường Deep Q-Learning 3.4.4. Thử nghiệm mô hình 3.4.4.1. Dữ liệu thử nghiệm: Bộ dữ liệu CNN (tiếng Anh) và Baomoi (tiếng Việt). 3.4.4.2. Tiền xử lý dữ liệu 3.4.4.3. Thiết kế thử nghiệm CNN Baomoi Mô hình R-1 R-2 R-L R-1 R-2 R-L BERT-Tiny/mBERT + CNN + seq2seq 29,55 11,67 27,12 51,17 23,83 36,54 BERT-Tiny/mBERT + CNN + seq2seq + MMR 30,09 11,95 27,80 51,41 24,01 36,92 BERT-Tiny/mBERT + CNN + seq2seq + DeepQL 30,49 12,22 27,89 51,73 24,10 37,18 BERT-Tiny/mBERT +CNN +seq2seq +DeepQL +MMR 31,36 12,84 28,33 51,95 24,38 37,56 Bảng 3.14. Kết quả thử nghiệm của các mô hình xây dựng 3.4.5. Đánh giá và so sánh kết quả CNN Baomoi Phương pháp R-1 R-2 R-L R-1 R-2 R-L LexRank* 22,9 6,6 17,2 38,5 17,0 28,9 TextRank* 26,0 7,3 19,2 44,7 19,2 32,9 LEAD* 29,0 10,7 19,3 46,5 20,3 30,8 Cheng và Lapata (2016) [125] 28,4 10,0 25,0 - - - REFRESH [124] 30,4 11,7 26,9 - - - § BERT-Tiny/mBERT + CNN + seq2seq 29,55 11,67 27,12 51,17 23,83 36,54 § BERT-Tiny/mBERT + CNN + seq2seq + MMR 30,09 11,95 27,80 51,41 24,01 36,92 BERT-Tiny/mBERT + CNN + seq2seq + DeepQL§ 30,49 12,22 27,89 51,73 24,10 37,18 BERT-Tiny/mBERT + CNN + seq2seq + DeepQL + 31,36 12,84 28,33 51,95 24,38 37,56 MMR§ Bảng 3.17. So sánh và đánh giá kết quả của các phương pháp. Ký hiệu ‘*’, ‘-’ và ‘§' biểu diễn các phương pháp đã thử nghiệm, không thử nghiệm và các mô hình xây dựng thử nghiệm trên các bộ dữ liệu tương ứng 3.5. So sánh đánh giá ba mô hình tóm tắt đơn văn bản hướng trích rút đề xuất Ba mô hình tóm tắt đơn văn bản hướng trích rút đã đề xuất được so sánh đánh giá theo hai tiêu chí độ chính xác và thời gian thực hiện trên các bộ dữ liệu thử nghiệm cho tóm tắt văn bản tiếng Anh và tiếng Việt tương ứng. Bảng 3.18 dưới đây trình bày kết quả so sánh đánh giá độ chính xác của 3 mô hình đề xuất. 12
CNN Baomoi Mô hình R-1 R-2 R-L R-1 R-2 R-L RoPhoBERT_MLP_ESDS 32,18 12,31 28,87 52,511 24,696 37,796 mBERT_CNN_ESDS 32,67 13,04 29,53 54,67 25,26 37,48 mBERT-Tiny_seq2seq_DeepQL_ESDS 31,36 12,84 28,33 51,95 24,38 37,56 Bảng 3.18. So sánh đánh giá độ chính xác của 3 mô hình đề xuất Bảng 3.19 dưới đây trình bày kết quả so sánh đánh giá thời gian thực hiện của 3 mô hình đề xuất. Mô hình mã hóa Số lượng văn bản Phương pháp Ngôn ngữ văn bản trung bình/1 giây RoPhoBERT_MLP_ESDS Tiếng Anh RoBERTa 1,30 mBERT_CNN_ESDS Tiếng Anh mBERT 0,62 mBERT-Tiny_seq2seq_DeepQL_ESDS Tiếng Anh BERT-Tiny 22,1 RoPhoBERT_MLP_ESDS Tiếng Việt PhoBERT 3,64 mBERT_CNN_ESDS Tiếng Việt mBERT 2,61 mBERT-Tiny_seq2seq_DeepQL_ESDS Tiếng Việt mBERT 2,61 mBERT-Tiny_seq2seq_DeepQL_ESDS Tiếng Anh mBERT 0,63 Bảng 3.19. So sánh đánh giá thời gian thực hiện của 3 mô hình đề xuất 3.6. Kết luận chương 3 Chương này đã đề xuất phát triển ba mô hình tóm tắt đơn văn bản hướng trích rút cho tóm tắt văn bản tiếng Anh và tiếng Việt sử dụng các kỹ thuật học sâu kết hợp với các kỹ thuật hiệu quả khác trong tóm tắt văn bản, đó là các mô hình RoPhoBERT_MLP_ESDS, mBERT_CNN_ESDS và mBERT- Tiny_seq2seq_DeepQL_ESDS. Các kết quả đạt được của chương đã được công bố trong các công trình [CT3], [CT4] và [CT5]. 13
Chương 4. PHÁT TRIỂN PHƯƠNG PHÁP TÓM TẮT ĐƠN VĂN BẢN HƯỚNG TÓM LƯỢC 4.1. Giới thiệu bài toán và hướng tiếp cận 4.2. Mô hình tóm tắt cơ sở Hình 4.1. Mô hình tóm tắt đơn văn bản hướng tóm lược cơ sở [128] 4.2.1. Kiến trúc seq2seq 4.2.2. Kỹ thuật chú ý 4.2.3. Cơ chế Pointer - Generator 4.2.4. Cơ chế bao phủ 4.3. Mô hình tóm tắt đơn văn bản hướng tóm lược đề xuất PG_ASDS 4.3.1. Các đặc trưng đề xuất thêm mới cho mô hình Vị trí câu (POSI), tần suất xuất hiện của từ. 4.3.2. Mô hình tóm tắt đơn văn bản hướng tóm lược đề xuất PG_Feature_ASDS Mô hình đề xuất với các đặc trưng thêm mới POSI và TF (hình 4.2). Hình 4.2. Mô hình tóm tắt đơn văn bản hướng tóm lược đề xuất PG_Feature_ASDS 14
4.4. Thử nghiệm mô hình 4.4.1. Các bộ dữ liệu thử nghiệm CNN/Daily Mail (tiếng Anh) và Baomoi (tiếng Việt). 4.4.2. Tiền xử lý dữ liệu Sử dụng thử viện Stanford CoreNLP (tiếng Anh), thư viện UETSegment (tiếng Việt). 4.4.3. Thiết kế thử nghiệm Bốn mô hình thử nghiệm gồm: (i) Mô hình 1: Mô hình seq2seq cơ bản với cơ chế chú ý [128]; (ii) Mô hình 2: Mạng Pointer - Generator với cơ chế Coverage [43]; (iii) Mô hình 3: Hệ thống đề xuất dựa trên [43] và bổ sung thêm thông tin vị trí câu; (iv) Hệ thống đề xuất dựa trên [43] và bổ sung thông tin về vị trí câu và tần suất xuất hiện của từ. 4.5. Đánh giá và so sánh kết quả CNN/Daily Mail Mô hình R-1 R-2 R-L Mô hình 1 (seq2seq + attention) [128] 27,21 10,09 24,48 Mô hình 2 (Pointer-Generator + Coverage) [43] (*) 29,71 12,13 28,05 Mô hình 3 ((*) + POSI) 31,16 12,66 28,61 Mô hình 4 ((*) + POSI + TF) 31,89 13,01 29,97 Bảng 4.1. Các kết quả thử nghiệm trên bộ dữ liệu CNN/Daily Mail. Ký hiệu ‘(*)‘ là mô hình của See và cộng sự [43] Baomoi Mô hình R-1 R-2 R-L Mô hình 1 (seq2seq + attention) [125] 26,68 9,34 16,49 Mô hình 2 (Pointer-Generator + Coverage) [43] (*) 28,34 11,06 18,55 Mô hình 3 ((*) + POSI) 29,47 11,31 18,85 Mô hình 4 ((*) + POSI + TF) 30,59 11,53 19,45 Bảng 4.2. Các kết quả thử nghiệm trên bộ dữ liệu Baomoi. Ký hiệu ‘(*)‘ là mô hình của See và cộng sự [43] 4.6. Kết luận chương 4 Chương này đã đề xuất phát triển một mô hình tóm tắt đơn văn bản hướng tóm lược cho tóm tắt tiếng Anh và tiếng Việt (mô hình PG_Feature_ASDS) sử dụng các kỹ thuật học sâu, các kỹ thuật hiệu quả khác và kết hợp các đặc trưng của văn bản cho mô hình tóm tắt. Kết quả đạt được của chương đã được công bố trong công trình [CT2]. 15
Chương 5. PHÁT TRIỂN CÁC PHƯƠNG PHÁP TÓM TẮT ĐA VĂN BẢN 5.1.Giới thiệu bài toán tóm tắt đa văn bản và hướng tiếp cận Bài toán tóm tắt đa văn bản hướng trích rút, hướng tóm lược. 5.2. Mô hình tóm tắt đa văn bản hướng trích rút Kmeans_Centroid_EMDS 5.2.1. Giới thiệu mô hình 5.2.2. Các thành phần chính của mô hình 5.2.2.1. Véc tơ hóa câu 5.2.2.2. K-means cho bài toán phân cụm 5.2.2.3. Tóm tắt văn bản dựa trên trung tâm 5.2.3. Mô hình tóm tắt đa văn bản đề xuất 5.2.3.1. Xây dựng các mô hình tóm tắt Mô hình 1: K-means kết hợp vị trí tương đối của câu; Mô hình 2: K-means kết hợp vị trí câu; Mô hình 3: K-means kết hợp MMR và vị trí câu; Mô hình 4: K-means kết hợp Centroid-based, MMR và vị trí câu. 5.2.3.2. Mô hình tóm tắt đa văn bản hướng trích rút Kmeans_Centroid_EMDS Mô hình đề xuất gồm 2 mô đun chính: Trích chọn đặc trưng và mô hình tóm tắt văn bản. Hình 5.5. Mô hình tóm tắt đa văn bản hướng trích rút Kmeans_Centroid_EMDS 5.2.4. Thử nghiệm mô hình và kết quả 5.2.4.1. Dữ liệu thử nghiệm Tiếng Anh: DUC 2007 [75]; tiếng Việt: Corpus_TMV [76]. 5.2.4.2. Cài đặt các tham số n_clusters, ndim, , sent, sim và len_sum. 16
5.2.4.3. Thiết kế thử nghiệm a) Thử nghiệm các mô hình xây dựng DUC 2007 Corpus_TMV Mô hình R-1 R-2 R-L R-1 R-2 R-L Mô hình 1 37,81 7,30 34,61 67,87 44,58 64,55 Mô hình 2 38,11 7,87 34,87 68,01 44,52 64,89 Mô hình 3 38,82 8,15 35,53 71,20 46,93 66,97 Mô hình 4 40,39 9,53 37,05 73,86 48,42 68,09 Bảng 5.2. Các kết quả thử nghiệm của các mô hình xây dựng trên hai bộ dữ liệu b) Thử nghiệm các mô hình sử dụng các kỹ thuật phân cụm khác Phương pháp R-1 R-2 R-L LexRank 37,52 8,14 34,18 LSA 37,92 7,74 35,02 LDA 35,69 6,26 32,71 LSA + Centroid-based + MMR + Vị trí câu 36,37 6,90 33,50 LDA + Centroid-based + MMR + Vị trí câu 36,73 7,22 33,58 K-means 37,81 7,30 34,86 K-means + Vị trí câu 38,11 7,87 34,86 Centroid-based 38,95 9,08 35,50 K-means+ Centroid-based + MMR + Vị trí câu 40,39 9,53 37,05 Bảng 5.3. Kết quả thử nghiệm các phương pháp tóm tắt trên bộ dữ liệu DUC 2007 5.2.5. So sánh và đánh giá kết quả DUC 2007 Corpus_TMV Phương pháp R-1 R-2 R-L R-1 R-2 R-L Random [142] 32,03 5,43 29,13 - - - Lead [142] 31,45 6,15 26,58 - - - DSDR [142] 39,57 7,44 35,34 - - - PV-DM [143] 39,83 8,51 - - - - K-means + Centroid-based + MMR + Vị trí câu 40,39 9,53 37,05 73,86 48,42 68,09 Bảng 5.4. So sánh kết quả của mô hình đề xuất với các phương pháp khác. Ký hiệu ‘-’ biểu diễn các phương pháp không được thử nghiệm trên bộ dữ liệu tương ứng 5.3. Các mô hình tóm tắt đa văn bản hướng tóm lược dựa trên mô hình tóm tắt đơn văn bản được huấn luyện trước 5.3.1. Đặt vấn đề 5.3.2. Mô hình tóm tắt đa văn bản hướng tóm lược dựa trên mô hình tóm tắt đơn văn bản hướng tóm lược được huấn luyện trước PG_Feature_AMDS 5.3.2.1. Giới thiệu mô hình 5.3.2.2. Các thành phần của mô hình a) Mô hình tóm tắt đơn văn bản hướng tóm lược được huấn luyện trước: Sử dụng mô hình đã đề xuất PG_Feature_ASDS ở chương 4, mô hình này được xem như mô hình tóm tắt được huấn luyện trước. b) Đề xuất các đặc trưng sử dụng cho mô hình: Vị trí câu (POSI), tần suất xuất hiện của từ (TF),điểm MMR. c) Phương pháp PG-MMR: Phương pháp PG-MMR [147]. 17
Hình 5.6. Minh họa phương pháp PG-MMR với k=2 [147] 5.3.2.3. Mô hình tóm tắt đa văn bản hướng tóm lược đề xuất dựa trên mô hình tóm tắt đơn văn bản được huấn luyện trước PG_Feature_AMDS Hình 5.7. Mô hình tóm tắt đa văn bản hướng tóm lược đề xuất Mô hình tóm tắt đề xuất dựa trên 2 mô hình: PG_Feature_ASDS được huấn luyện trước trên các bộ dữ liệu tóm tắt đơn văn bản tương ứng và mô hình PG-MMR [147]. Mô hình đề xuất được thêm các đặc trưng theo các giai đoạn TF, POSI và điểm MMR. 5.3.2.4. Huấn luyện mô hình (i) Huấn luyện mô hình PG_Feature_ASDS, (ii) Huấn luyện tiếp mô hình PG_Feature_ASDS trên các bộ dữ liệu tóm tắt đa văn bản, (iii) Đánh giá mô hình tóm tắt đa văn bản hướng tóm lược đề xuất. 18
Hình 5.8. Các giai đoạn huấn luyện mô hình tóm tắt đa văn bản hướng tóm lược PG_Feature_AMDS 5.3.2.5. Thiết kế thử nghiệm a) Các bộ dữ liệu thử nghiệm sử dụng trong mô hình: Tiếng Anh: CNN/Daily Mail, DUC 2007, DUC 2004; Tiếng Việt: Baomoi, ViMs, Corpus_TMV. b) Tiền xử lý dữ liệu c) Huấn luyện mô hình: Mô hình được huấn luyện sử dụng Google Colab. d) Các kết quả thử nghiệm - Kết quả thử nghiệm của mô hình tóm tắt đơn văn bản hướng tóm lược. CNN Baomoi Mô hình R-1 R-2 R-L R-1 R-2 R-L PG_Feature_ASDS 31,89 13,01 29,97 30,59 11,53 19,45 Bảng 5.7. Kết quả thử nghiệm của mô hình tóm tắt PG_Feature_ASDS trên các bộ dữ liệu CNN và Baomoi - Kết quả công bố của mô hình tóm tắt đa văn bản hướng tóm lược cơ sở [147]: Kết quả các độ đo R-1, R-2 và R-SU4 trên bộ dữ liệu DUC 2004 tương ứng là 36,88%; 8,73% và 12,64%. - Kết quả thử nghiệm mô hình PG_Feature_AMDS sử dụng mô hình PG_Feature_ASDS chưa huấn luyện tiếp trên bộ DUC 2007 và ViMs tương ứng. Bộ dữ liệu R-1 R-2 R-L R-S4 R-SU4 DUC 2004 36,56 9,13 18,39 8,17 8,55 Copus_TMV 44,63 27,69 30,87 30,96 32,89 Bảng 5.8. Kết quả thử nghiệm mô hình PG_Feature_AMDS trên bộ DUC 2004 và Corpus_TMV sử dụng mô hình PG_Feature_ASDS chưa được huấn luyện tiếp trên bộ DUC 2007 và bộ dữ liệu ViMs tương ứng - Kết quả thử nghiệm mô hình PG_Feature_AMDS sử dụng mô hình tóm tắt đơn văn bản PG_Feature_ASDS đã được huấn luyện tiếp trên bộ DUC 2007 và bộ ViMs tương ứng. 19
Bộ dữ liệu R-1 R-2 R-L R-S4 R-SU4 DUC 2004 37,71 9,50 19,14 8,39 9,28 Copus_TMV 66,04 39,00 38,81 44,33 45,80 Bảng 5.9. Kết quả thử nghiệm mô hình PG_Feature_AMDS trên bộ DUC 2004 và Corpus_TMV sử dụng mô hình PG_Feature_ASDS đã được huấn luyện tiếp trên bộ DUC 2007 và bộ ViMs tương ứng 5.3.2.6. Đánh giá và so sánh kết quả Bảng 5.16 là kết quả so sánh đánh giá hiệu quả của các phương pháp. DUC 2004 Corpus_TMV Phương pháp R-1 R-2 R-SU4 R-1 R-2 R-SU4 SumBasic [147] 29,48 4,25 8,64 - - - KLSumm [147] 31,04 6,03 10,23 - - - LexRank [147] 34,44 7,11 11,19 - - - Centroid [147] 35,49 7,80 12,02 - - - ICSISumm [147] 37,31 9,36 13,12 - - - PG-Original [147] 31,43 6,03 10,01 - - - G-MMR w/ Cosine [147] 36,88 8,73 12,64 - - - PG_Feature_AMDS 37,71 9,50 9,28 66,04 39,00 45,80 Bảng 5.12. So sáng và đánh giá kết quả của các phương pháp. Ký hiệu ‘-’ biểu diễn các phương pháp không được thử nghiệm trên các bộ dữ liệu tương ứng 5.3.3. Mô hình tóm tắt đa văn bản hướng tóm lược dựa trên mô hình tóm tắt đơn văn bản hỗn hợp được huấn luyện trước 5.3.3.1. Giới thiệu mô hình 5.3.3.2. Các thành phần của mô hình a) Mô hình tóm tắt đơn văn bản hướng trích rút được huấn luyện trước Sử dụng mô hình RoPhoBERT_CNN_ESDS được tinh chỉnh từ mô hình tóm tắt đơn văn bản hướng trích rút mBERT_CNN_ESDS đã đề xuất ở Chương 3. b) Mô hình tóm tắt đơn văn bản hướng tóm lược được huấn luyện trước Sử dụng mô hình PG_TF-IDF_ASDS được tinh chỉnh từ mô hình tóm tắt hướng tóm lược PG_Feature_ASDS đã đề xuất ở Chương 4. c) Mô hình tóm tắt đơn văn bản hỗn hợp được huấn luyện trước sử dụng cho mô hình đề xuất Mô hình pre-trained Ext_Abs_ASDS được biểu diễn chi tiết trong hình 5.11 dưới đây. Hình 5.11. Mô hình tóm tắt đơn văn bản hỗn hợp Ext_Abs_ASDS 20