
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 63
NGHIÊN CỨU NLP VÀ XÂY DỰNG ỨNG DỤNG RÚT GỌN
NỘI DUNG VĂN BẢN TIẾNG VIỆT
RESEARCH ON NATURAL LANGUAGE PROCESSING AND DEVELOPING
A TEXT SUMMARIZATION APPLICATION FOR VIETNAMESE CONTENT
Phạm Quốc Hoàng1,*, Nguyễn Bá Khang2,
Trần Việt Hà3
1Lớp CNTT03 - K15, Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội
2Lớp CNTT07 - K16, Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội
3Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội
*Email: phamhoang862.vivy@gmail.com
TÓM TẮT
Đề tài “Nghiên cứu NLP và xây dựng ứng dụng rút gọn nội dung văn bản tiếng Việt” gồm những nội dung chính sau:
Nghiên cứu tổng quan về mô hình Machine Learning và rút gọn nội dung văn bản tiếng Việt. Kế tiếp là tìm hiểu một số
mô hình rút gọn nội dung văn bản tiếng việt: Mô hình Word2vec, mô hình LSTM, mô hình Seq2Seq, mô hình Roberta và
mô hình Bert. Sau đó sẽ là đưa ra tổng quan của các mô hình trên, cách chúng hoạt động, ưu và nhược điểm của chúng và
kết quả của các mô hình này trong việc tóm tắt văn bản nội dung tiếng Việt.
Từ khóa: Machine Learning, Word2vec, LSTM, Roberta, Bert, Seq2Seq, Text Summerization, RNN.
ABSTRACT
The topic "Research on NLP and Developing a Text Summarization Application for Vietnamese Content" includes the
following main contents: An overview study of Machine Learning models and text summarization for Vietnamese content.
Next, it explores several text summarization models for Vietnamese content: Word2vec model, LSTM model, Seq2Seq
model, Roberta model, and Bert model. Following that is an overview of these models, how they work, their advantages
and disadvantages, and the results of these models in summarizing Vietnamese text content.
Keywords: Machine Learning, Word2vec, LSTM, Roberta, Bert, Seq2Seq, Text Summerization, RNN.
1. ĐẶT VẤN ĐỀ
Với sự bùng nổ thông tin lưu trữ trên các hệ thống máy
tính và trên Internet, một lượng thông tin khổng lồ này cần
phải có các hệ thống xử lý ngôn ngữ tự nhiên đủ mạnh và
hiệu quả.
Tóm tắt văn bản là kỹ thuật rút gọn những đoạn văn bản
dài, tạo nên một bản tóm tắt mạch lạc, trôi chảy, chỉ bao
gồm những điểm chính được nêu trong văn bản đó. Quá
trình này đặc biệt hữu ích để xử lý khối lượng dữ liệu ngày
càng tăng mà con người cảm thấy khó quản lý một cách
hiệu quả.
Dưới đây là một số sự thật đáng kinh ngạc về thế giới
dữ liệu do Arne von See cung cấp vào năm 2021, phần lớn
các doanh nghiệp chỉ xem xét 12% dữ liệu của họ [1]. Việc
trích xuất những hiểu biết đó và áp dụng vẫn là một thách
thức. Đến năm 2025, 180 zettabytes (tức là 180 theo sau là
21 số 0!) [1]. Sự tăng trưởng này được thúc đẩy bởi các
tương tác kỹ thuật số, thí nghiệm khoa học và tiến bộ công
nghệ và phải mất 181 triệu năm để tải xuống tất cả tài liệu
có sẵn trên internet ngay bây giờ [1].
Trong thời đại mà thông tin ngày càng tràn ngập và thời
gian của mỗi người ngày càng quý báu, việc nghiên cứu về
cách thu gọn thông tin trở nên vô cùng quan trọng thì việc
rút gọn nội dung văn bản là điều rất cần thiết và quan trọng.
Điều này không chỉ giúp tiết kiệm thời gian và năng lượng
cho người đọc mà còn tăng tính thú vị và hiệu quả truyền
đạt của thông điệp. Bên cạnh đó, việc nắm bắt sâu hơn về
cách thức hoạt động của ngôn ngữ và văn hóa trong quá
trình rút gọn cũng đóng vai trò quan trọng trong việc phát
triển công nghệ ngôn ngữ tự nhiên. Vì vậy, nghiên cứu về
cách rút gọn nội dung tiếng Việt không chỉ hướng tới việc
phục vụ cộng đồng mà còn có thể đóng góp vào sự phát
triển toàn diện của ngôn ngữ và truyền thông.
2. ỨNG DỤNG CỦA TEXT SUMMARIZATION
Nghiên cứu thảo luận về hiện trạng nghiên cứu về Xử lý
ngôn ngữ tự nhiên (NLP) và Tóm tắt văn bản. Nó nhấn

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 64mạnh vai trò của Tóm tắt văn bản trong việc tăng tốc kiến
thức trong các lĩnh vực khác nhau như học máy, ngôn ngữ
tự nhiên, khoa học nhận thức và tâm lý học. Tóm tắt văn
bản cho phép tạo ra các công cụ, phương pháp, bộ dữ liệu
và tài nguyên mới phục vụ cho nhu cầu nghiên cứu và công
nghiệp. Tóm tắt văn bản tìm thấy các ứng dụng trong việc
tóm tắt các tài liệu dài như sách, bài đăng trên mạng xã hội,
phân tích tình cảm, tin tức, email, tài liệu pháp lý, tài liệu y
sinh và bài báo khoa học [2]. Các ứng dụng của miền Tóm
tắt văn bản được liệt kê dưới đây:
A. Công nghiệp
Việc sử dụng tính năng tóm tắt văn bản trong lĩnh vực
công nghiệp là để tự động cô đọng các báo cáo, tài liệu và
nhật ký dữ liệu dài, tạo điều kiện cho việc ra quyết định
nhanh hơn và truy xuất thông tin hiệu quả
B. Y tế
Trong lĩnh vực y tế, tính năng tóm tắt văn bản giúp tóm
tắt hồ sơ y tế, tài liệu nghiên cứu và lịch sử bệnh nhân rộng
rãi, cho phép các nhà cung cấp dịch vụ chăm sóc sức khỏe
truy cập thông tin quan trọng một cách nhanh chóng để đưa
ra quyết định chẩn đoán và điều trị.
C. Phương tiện truyền thông
tóm tắt văn bản sử dụng trong ngành truyền thông tin
tức để tạo ra các bản tóm tắt ngắn gọn về các bài báo và báo
cáo, giúp người đọc truy cập nhanh vào các điểm chính của
câu chuyện.
D. Giáo dục
Trong giáo dục, tóm tắt văn bản hỗ trợ các nhà nghiên
cứu cô đọng lượng lớn tài liệu, cho phép họ xem xét các tác
phẩm liên quan một cách hiệu quả và luôn cập nhật những
phát triển mới nhất trong lĩnh vực của họ
E. Thương mại điện tử
Các nền tảng thương mại điện tử sử dụng tính năng tóm
tắt văn bản để tạo mô tả, đánh giá và tóm tắt sản phẩm, cung
cấp cho người mua hàng thông tin ngắn gọn để hỗ trợ họ
đưa ra quyết định mua hàng
F. Pháp luật
Trong lĩnh vực pháp lý, tóm tắt văn bản được sử dụng
để rút ra những hiểu biết quan trọng từ các vụ án kéo dài,
các tài liệu pháp lý và hợp đồng, hỗ trợ luật sư và chuyên
gia pháp lý trong việc phân tích và nghiên cứu vụ việc.
3. CÁC PHƯƠNG PHÁP TÓM TẮT VĂN BẢN
- Phương pháp trích xuất (Extractive)
Tóm tắt trích xuất bao gồm việc chọn các câu hoặc cụm
từ trực tiếp từ văn bản nguồn để tạo thành một bản tóm tắt.
Cách tiếp cận này dựa vào việc xác định các phần mang tính
thông tin và tiêu biểu nhất của nội dung gốc. Các phương
pháp khai thác thường sử dụng phương pháp phỏng đoán,
thuật toán hoặc mô hình học máy để xếp hạng và lựa chọn
các câu dựa trên các yếu tố như tầm quan trọng, tầm quan
trọng hoặc mức độ dư thừa. Có nhiều loại mô hình khác
nhau như mô hình Graph-based, mô hình dựa trên
Cluster(cụm), các mô hình Machine learning được sử dụng
trong tóm tắt trích xuất.
- Phương pháp trừu tượng (Abstractive)
Tóm tắt trừu tượng nhằm mục đích tạo ra các bản tóm
tắt có thể chứa các từ hoặc cụm từ không có trong văn bản
nguồn. Các phương pháp trừu tượng đòi hỏi sự hiểu biết sâu
sắc hơn về nội dung của văn bản và khả năng tạo ra các bản
tóm tắt mạch lạc và ngắn gọn bằng ngôn ngữ tự nhiên. Quá
trình chuyển đổi từ tóm tắt khai thác sang tóm tắt trừu tượng
đã được thúc đẩy bởi những tiến bộ trong mô hình dựa trên
mạng thần kinh và kỹ thuật học sâu [3, 4]. Có nhiều loại mô
hình khác nhau như mô hình sequence-to-sequence, Mạng
tạo Pointer Generator Network, Mô hình học tăng cường
và BERT (Bidirectional Encoder Representations from
Transformers).
- Phương pháp lai (Hybrid)
Tóm tắt văn bản lai là một cách tiếp cận kết hợp cả
phương pháp trích xuất và trừu tượng để tạo ra một bản tóm
tắt. Trong phương pháp kết hợp, hệ thống có thể sử dụng
các phương pháp trích xuất để xác định các câu hoặc cụm
từ chính, sau đó sử dụng các kỹ thuật trừu tượng để diễn đạt
lại và hợp nhất chúng thành một bản tóm tắt gắn kết hơn.
Các phương pháp tóm tắt kết hợp có xu hướng tạo ra các
bản tóm tắt có chất lượng cao hơn so với các phương pháp
trích xuất thuần túy. Điều này là do họ có thể nắm bắt được
bản chất của văn bản một cách hiệu quả hơn. Tóm tắt lai ít
phức tạp hơn các phương pháp tóm tắt trừu tượng thuần túy.
4. CÁC MÔ HÌNH CÓ THỂ ỨNG DỤNG TRONG
TÓM TẮT VĂN BẢN
4.1. LSTM Model
Hình 1. LSTM truyền thống (bộ nhớ ngắn hạn dài) có ba cổng:
cổng đầu vào, cổng quên và cổng đầu ra
LSTM (Long Short-Term Memory) là một thuật toán
trong trí tuệ nhân tạo và học máy, phát triển bởi Hochreiter
và Schmidhuber vào năm 1997. Đây là một loại mạng nơ-
ron hồi quy (RNN) được sử dụng rộng rãi trong nhận dạng
âm thanh, hình ảnh và xử lý ngôn ngữ tự nhiên. LSTM nổi
bật với khả năng "nhớ" và "quên" thông tin thông qua các
cổng (gates) khác nhau, cho phép mô hình xử lý và lưu giữ

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 65thông tin quan trọng qua nhiều bước thời gian [5], giúp khắc
phục vấn đề vanishing gradient. Vanishing gradient là một
vấn đề thường gặp trong mạng nơ-ron sâu, đặc biệt là
RNNs, khi các gradients trở nên rất nhỏ trong quá trình lan
truyền ngược, làm cho quá trình học chậm hoặc dừng lại.
LSTM sử dụng các cổng để duy trì gradients ổn định hơn,
giúp mô hình học tốt hơn và duy trì thông tin quan trọng
qua nhiều bước thời gian.
Nội dung của khối bộ nhớ được kiểm soát bởi ba cổng
này. Ở đây, −1 và lần lượt là nội dung của các ô nhớ
trước đó và hiện tại, ℎ−1 và ht lần lượt là đầu ra của trạng
thái trước đó và trạng thái hiện tại, là một vectơ đầu vào,
X là phép nhân theo bit, + là tổng theo bit, ℎ ℎ là
hàm tang hyperbol, là hàm sigmoid. , , , và là
độ lệch của các cổng khác nhau.
Các bước hoạt động:
LSTM nhận vectơ đầu vào () và trạng thái trước đó
(ht−1, −1).
Cổng quên (forget gate) quyết định thông tin nào cần
loại bỏ khỏi trạng thái ô trước đó (−1), dựa trên vectơ đầu
vào và trạng thái ẩn trước đó:
=(+ℎℎ−1+) (1)
ft sẽ có giá trị từ 0-1 nếu gần 0 nghĩa là loại bỏ hoặc nếu
gần 1 thì thông tin sẽ được giữ lại để tiếp tục.
=(+ℎℎ−1+ (2)
=−1+ℎ(+ℎℎ−1+) (3)
Cổng đầu ra lấy nội dung ℎ−1 của trạng thái trước đó,
vectơ đầu vào và độ lệch làm đầu vào và tạo ra
làm đầu ra. Cuối cùng, nội dung của trạng thái hiện tại ℎ
được tạo ra bằng cách sử dụng giá trị của .
=(+ℎℎ−1+ (4)
ℎ=ℎ() (5)
4.2. Bidirectional LSTM model
Hình 2. Chiều thuận và nghịch trong LSTM hai chiều
LSTM hai chiều (Bidirectional LSTM) là một loại đặc
biệt của LSTM cho phép luồng dữ liệu đi theo cả hai hướng.
Trong LSTM thông thường, dữ liệu chỉ chảy theo một
hướng, tức là nó có thể theo hướng tới (forward) hoặc theo
hướng lui (backward). Nhưng việc sử dụng LSTM hai chiều
là để dữ liệu đầu vào có thể chảy theo cả hai hướng: tiến và
lui. Ứng dụng chính của điều này là cho phép mô hình nhớ
được cả thông tin quá khứ và tương lai. Trong LSTM hai
chiều, thông tin quá khứ được bảo toàn cẩn thận.
Ví dụ có thể khi một câu nói ‘Tôi đi vào…’ và câu được
cung cấp là ‘Tôi đã đi vào nhà’. Điều này có thể được sử
dụng để dự đoán phần còn lại của câu là ’Tôi đi vào nhà’,
LSTM hai chiều có thể sử dụng để rút ra thông tin quá khứ
từ tương lai hoặc tương lại này từ thông tin từ quá khứ.
4.3. Sequence-To-Sequence (Seq2Seq)
Các mô hình Seq2Seq đã được sử dụng cho nhiều nhiệm
vụ trong xử lý ngôn ngữ tự nhiên như dịch máy, nhận dạng
giọng nói, tạo chú thích cho video,... Mô hình Seq2Seq bao
gồm hai phần chính là bộ mã hóa (encoder) và bộ giải mã
(decoder) [6]. Chức năng chính của bộ mã hóa là mã hóa
văn bản nguồn thành vector ngữ cảnh, giúp bảo toàn thông
tin có trong văn bản nguồn. Chức năng của bộ giải mã là
tạo ra từ mục tiêu cho mỗi bước thời gian dựa trên vector
ngữ cảnh được tạo bởi bộ mã hóa.
Hình 3. Cấu trúc mô hình Seq2Seq with Attention
Tuy nhiên, các mô hình cơ bản gặp nhiều vấn đề như
thiếu từ vựng, không mạch lạc, từ lặp lại trong bản tóm tắt.
Để khắc phục những vấn đề này, cơ chế attention đã được
đưa ra.
Cơ chế attention tạo ra một vector attention giúp bộ giải
mã biết cần tập trung vào phần nào của vector ngữ cảnh để
tạo ra một bản tóm tắt giữ nguyên ngữ cảnh của bài viết gốc
[7]. Bộ giải mã được huấn luyện dựa trên phương pháp
teacher forcing, buộc nó phải tạo ra một từ tương tự hoặc
giống với từ mục tiêu. Với sự trợ giúp của tăng cường dữ
liệu (data augmentation), các từ trong bài viết được huấn
luyện sẽ được thay thế bằng các từ đồng nghĩa tương ứng.
Bằng cách này, các từ được thay đổi và vector ngữ cảnh cho
bài viết được tạo ra dựa trên câu đã thay đổi và bộ giải mã
bị buộc phải tạo ra các từ tương tự. Vì vậy, các từ mới có
thể được đưa vào các bản tóm tắt được tạo ra và các câu có
ngữ pháp, mạch lạc hơn có thể được tạo ra từ mô hình sau
quá trình huấn luyện.
Trong bài này, mô hình Seq2Seq với encoder sẽ gồm Bi
LSTM và decoder sẽ gồm LSTM.

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 664.4. BERT Model
Vào cuối năm 2018, một nhóm các nhà khoa học từ
phòng thí nghiệm Ngôn ngữ AI của Google dưới sự lãnh
đạo của J.Devlin đã trình bày một mô hình ngôn ngữ mới
có tên BERT [9]. Mô hình này nhằm mục đích quá trình học
sâu giai đoạn đầu về cách biểu diễn văn bản hai chiều để sử
dụng sau này trong các mô hình học máy. Ưu điểm của mô
hình này là dễ sử dụng, bao gồm việc chỉ thêm một lớp đầu
ra vào kiến trúc thần kinh hiện có để thu được các mô hình
văn bản vượt qua độ thiếu chính xác của tất cả các mô hình
hiện có trong một số vấn đề xử lý văn bản tự nhiên. Có hai
loại tác vụ xử lý văn bản tự nhiên: tổng thể, hoạt động với
văn bản ở cấp độ câu và các văn bản được mã hóa, chẳng
hạn như trả lời một câu hỏi và ghi nhận tác giả của các thực
thể, tạo ra kết quả chi tiết hơn ở cấp độ các thành phần văn
bản riêng lẻ. Cả hai loại vấn đề gần đây đều sử dụng các mô
hình được đào tạo trước, điều này có thể giảm đáng kể thời
gian thiết kế và đào tạo các mô hình riêng trong khi vẫn duy
trì mức hiệu quả cao [8,10].
BERT cố gắng khắc phục hạn chế này bằng cách sử dụng
phương pháp học theo cái gọi là “mô hình ngôn ngữ được
che giấu”, nghĩa là, chức năng mục tiêu của việc học một
cách biểu diễn nhất định chính thức hóa nhiệm vụ dự đoán
một từ được chọn ngẫu nhiên và được che giấu trong văn
bản, chỉ tính đến bối cảnh xung quanh. Do đó, một máy biến
áp hai chiều sâu sẽ được huấn luyện. Quá trình huấn luyện
mô hình BERT bao gồm hai giai đoạn: huấn luyện trước về
dữ liệu chưa được gắn nhãn và huấn luyện bổ sung về dữ
liệu đã được dán nhãn cho một vấn đề ứng dụng cụ thể. Tùy
thuộc vào nhiệm vụ, quy trình đào tạo lại và các kiến trúc
được sử dụng có thể khác nhau, mặc dù chúng đều dựa trên
cùng một mô hình với cùng một bộ tham số. Các tác giả đã
đào tạo hai phiên bản của mạng thần kinh - một phiên bản
tiêu chuẩn có 12 lớp và 768 tọa độ trong chế độ xem (tổng
cộng 110 triệu tham số được đào tạo) và một phiên bản lớn
với 24 lớp và 1024 tọa độ (340 triệu tham số) [9].
4.5. Roberta Model
RoBERTa được đề xuất bởi Liu và các đồng nghiệp [11].
Nó được phát triển để tối ưu hóa mô hình BERT được đào
tạo trước. Mô hình RoBERTa sử dụng cùng một kiến trúc
mô hình BERT được đào tạo trước. Những điểm khác biệt
chính của RoBERTa so với BERT là: Mô hình RoBERTa
được đào tạo trên một tập dữ liệu lớn hơn gồm 160GB tài
liệu. Tập dữ liệu này là sự kết hợp của năm tập dữ liệu:
BOOKCORPUS [12] Wikipedia tiếng Anh, CC-News [13],
OpenWebtext [14] và Stories [15]). RoBERTa mất nhiều
thời gian hơn BERT để đào tạo mô hình với 500K bước.
Phương pháp đào tạo của RoBERTa khác với BERT. Mô
hình RoBERTa đã loại bỏ tác vụ Dự đoán câu tiếp theo
(NSP) khỏi quy trình đào tạo của nó. Thay vào đó, nó được
đào tạo bằng DynamicMasking để các mã thông báo bị che
giấu sẽ được tạo ra khi một câu được đưa vào mô hình. Mô
hình được đào tạo với kích thước lô lớn hơn nên nó ngăn
ngừa nhiễu tốt hơn trong quá trình đào tạo. Chiều dài tối đa
của một vectơ câu là 512. Mô hình RoBERTa được đào tạo
bằng mô hình BERTLARGE (L = 24, H = 1024, A = 16,
355M tham số). Trong mô hình đề xuất của chúng tôi, chúng
tôi sử dụng mô hình RoBERTa có vectơ câu có chiều dài tối
đa là 256 và kích thước lô là 256. Trong quá trình đào tạo,
chúng tôi đóng băng mô hình RoBERTa và tinh chỉnh nó
trên tập dữ liệu CNN.
5. MỘT SỐ KẾT QUẢ THỰC NGHIỆM CỦA CÁC
MÔ HÌNH TRÊN
Dưới đây là kết quả nghiên cứu của nhóm Khang cùng
các đồng nghiệp [16] với tập dữ liệu 95,579, tài liệu từ các
trang báo điện tử: vnexpress, tuổi trẻ, dân trí, dân viêt, lao
động.
Bảng 1 ta thấy BERT có điểm cao nhất khi thực hiện tóm
tắt trích xuất. và điểm số khi tóm tắt trừu tượng cũng rất ấn
tượng. Với việc kết hợp với copy-generator model với
BERT cho ra kết quả khi thực hiện tóm tắt trừu tượng tốt
nhất.
Bảng 1. ROUGE score của các model tóm tắt trích xuất và tóm
tắt trừu tượng
6. KẾT LUẬN
- Những mô hình có thể sử dụng để thực hiện tóm tắt
văn bản nội dung tiếng Việt.
- Có các hiểu biết về kĩ thuật tóm tắt văn bản nói chung
và tóm tắt văn bản tiếng Việt nói riêng
- Nghiên cứu tổng quan về một số mô hình
Deeplearning.
- Trong tương lai, đề xuất mô hình, kỹ thuật để tóm tắt
văn bản tiếng Việt. Xây dựng mô hình áp dụng và có kết
quả trực quan.

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 67TÀI LIỆU THAM KHẢO
[1]. Divakar Yadav1, Jalpa Desai, Arun Kumar, Yadav2 Automatic Text Summarization Methods: A Comprehensive
Review 1-2.
[2]. M. F. Mridha, Kamruddin Nur, Aklima Akter Lima, Sujoy Chandra Das, Mahmud Hasan & Muhammad Mohsin
Kabir, 2021. A Survey of Automatic Text Summarization: Progress, Process and Challenges, pp. 31297.
[3]. Rush, A. M., Chopra, S., & Weston, J. 2015. A Neural Attention Model for Abstractive Sentence
Summarization. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP).
[4]. See, A., Liu, P. J., & Manning, C. D. 2017. Get To The Point: Summarization with Pointer-Generator Networks.
Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (ACL).
[5]. Lipton, Z. 2015. A Critical Review of Recurrent Neural Networks for Sequence Learning. arXiv, arXiv:1506.00019.
[6]. Niu, J., Sun, M., Rodrigues, J.J. and Liu, X May. 2019. A Novel Attention Mechanism Considering Decoder
Input for Abstractive Text Summarization. In ICC 2019-2019 IEEE International Conference on Communications (ICC) ,
(pp. 1-7). IEEE
[7]. Bahdanau, D., Cho, K. and Bengio, Y. 2014. Neural machine translation by jointly learning to align and translate
.arXiv preprint arXiv:1409.04.
[8]. Zihang Dai, Zhilin Yang, Yiming Yang, William W. 2019. Cohen, and Ruslan Salakhutdinov ...Transformer-XL:
Attentive Language Models Beyond a Fixed-Length Context. (January 2019). Retrieved March 24, 2020 from
http://dx.doi.org/
[9]. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. BERT: Pre-training of
DeepBidirectional Transformers for Language Understanding. Retrieved March 20, 2020,
fromhttp://arxiv.org/abs/1810.04805
[10]. Jeremy Howard and Sebastian Ruder. 2018. Universal Language Model Fine-tuning for Text Classification.
Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: LongPapers).
2018.DOI: https: //doi.org/10.18653 / v1 / p18-1031
[11]. Liu, Yinhan; Ott, Myle; Goyal, Naman; Du, Jingfei; Joshi, Mandar; Chen, Danqi; Levy, Omer; Lewis, Mike;
Zettlemoyer, Luke.Stoyanov, Veselin: RoBERTa: A Robustly Optimized BERT Pretraining Approach.
2019.arXiv:1907.11692v1
[12]. Zhu, Yukun; Kiros, Ryan; Zemel, Richard; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler,
Sanja, 2015. : Aligning books and movies: Towards story-like visual explanations by watching movies and reading
books.arXiv preprint arXiv:1506.06724
[13]. Nagel, Sebastian: Cc-news. http: //web.archive.org/save/http: //commoncrawl.org/2016/10/newsdataset-available.
2016.
[14]. Gokaslan, Aaron; Cohen, Vanya Openwebtext corpus. 2019. http://web.archive.org/
save/http://Skylion007.github.io/ OpenWebTextCorpus
[15]. Trinh, Trieu H.; Le, Quoc V.: A simple method for commonsense reasoning. 2018. arXiv preprint
arXiv:1806.02847
[16]. Khang Nhut Lam, Tuong Thanh Do, Nguyet-Hue Thi Pham, and Jugal Kalita. Vietnamese Text Summarization
Basedon Neural Network Models. 2022. DOI:10.1007/978-3-030-97610-1_8
[17]. Andrew M. Dai and Quoc V. Le. 2015. Semi-supervised Sequence Learning. In Advances in NeuralInformation
Processing Systems, 3079-3087. Retrieved March 20, 2020. fromhttp://papers.nips.cc/paper/5949-semi-supervised-
sequence-learning.pdf

