Ứng dụng NLP: Nghiên cứu và xây dựng ứng dụng rút gọn nội dung văn bản tiếng Việt

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 63

NGHIÊN CỨU NLP VÀ XÂY DỰNG ỨNG DỤNG RÚT GỌN

NỘI DUNG VĂN BẢN TIẾNG VIỆT

RESEARCH ON NATURAL LANGUAGE PROCESSING AND DEVELOPING

A TEXT SUMMARIZATION APPLICATION FOR VIETNAMESE CONTENT

Phạm Quốc Hoàng1,*, Nguyễn Bá Khang2,

Trần Việt Hà3

1Lớp CNTT03 - K15, Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội

2Lớp CNTT07 - K16, Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội

3Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội

*Email: phamhoang862.vivy@gmail.com

TÓM TẮT

Đề tài “Nghiên cứu NLP và xây dựng ứng dụng rút gọn nội dung văn bản tiếng Việt” gồm những nội dung chính sau:

Nghiên cứu tổng quan về mô hình Machine Learning và rút gọn nội dung văn bản tiếng Việt. Kế tiếp là tìm hiểu một số

mô hình rút gọn nội dung văn bản tiếng việt: Mô hình Word2vec, mô hình LSTM, mô hình Seq2Seq, mô hình Roberta và

mô hình Bert. Sau đó sẽ là đưa ra tổng quan của các mô hình trên, cách chúng hoạt động, ưu và nhược điểm của chúng và

kết quả của các mô hình này trong việc tóm tắt văn bản nội dung tiếng Việt.

Từ khóa: Machine Learning, Word2vec, LSTM, Roberta, Bert, Seq2Seq, Text Summerization, RNN.

ABSTRACT

The topic "Research on NLP and Developing a Text Summarization Application for Vietnamese Content" includes the

following main contents: An overview study of Machine Learning models and text summarization for Vietnamese content.

Next, it explores several text summarization models for Vietnamese content: Word2vec model, LSTM model, Seq2Seq

model, Roberta model, and Bert model. Following that is an overview of these models, how they work, their advantages

and disadvantages, and the results of these models in summarizing Vietnamese text content.

Keywords: Machine Learning, Word2vec, LSTM, Roberta, Bert, Seq2Seq, Text Summerization, RNN.

1. ĐẶT VẤN ĐỀ

Với sự bùng nổ thông tin lưu trữ trên các hệ thống máy

tính và trên Internet, một lượng thông tin khổng lồ này cần

phải có các hệ thống xử lý ngôn ngữ tự nhiên đủ mạnh và

hiệu quả.

Tóm tắt văn bản là kỹ thuật rút gọn những đoạn văn bản

dài, tạo nên một bản tóm tắt mạch lạc, trôi chảy, chỉ bao

gồm những điểm chính được nêu trong văn bản đó. Quá

trình này đặc biệt hữu ích để xử lý khối lượng dữ liệu ngày

càng tăng mà con người cảm thấy khó quản lý một cách

hiệu quả.

Dưới đây là một số sự thật đáng kinh ngạc về thế giới

dữ liệu do Arne von See cung cấp vào năm 2021, phần lớn

các doanh nghiệp chỉ xem xét 12% dữ liệu của họ [1]. Việc

trích xuất những hiểu biết đó và áp dụng vẫn là một thách

thức. Đến năm 2025, 180 zettabytes (tức là 180 theo sau là

21 số 0!) [1]. Sự tăng trưởng này được thúc đẩy bởi các

tương tác kỹ thuật số, thí nghiệm khoa học và tiến bộ công

nghệ và phải mất 181 triệu năm để tải xuống tất cả tài liệu

có sẵn trên internet ngay bây giờ [1].

Trong thời đại mà thông tin ngày càng tràn ngập và thời

gian của mỗi người ngày càng quý báu, việc nghiên cứu về

cách thu gọn thông tin trở nên vô cùng quan trọng thì việc

rút gọn nội dung văn bản là điều rất cần thiết và quan trọng.

Điều này không chỉ giúp tiết kiệm thời gian và năng lượng

cho người đọc mà còn tăng tính thú vị và hiệu quả truyền

đạt của thông điệp. Bên cạnh đó, việc nắm bắt sâu hơn về

cách thức hoạt động của ngôn ngữ và văn hóa trong quá

trình rút gọn cũng đóng vai trò quan trọng trong việc phát

triển công nghệ ngôn ngữ tự nhiên. Vì vậy, nghiên cứu về

cách rút gọn nội dung tiếng Việt không chỉ hướng tới việc

phục vụ cộng đồng mà còn có thể đóng góp vào sự phát

triển toàn diện của ngôn ngữ và truyền thông.

2. ỨNG DỤNG CỦA TEXT SUMMARIZATION

Nghiên cứu thảo luận về hiện trạng nghiên cứu về Xử lý

ngôn ngữ tự nhiên (NLP) và Tóm tắt văn bản. Nó nhấn

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 64mạnh vai trò của Tóm tắt văn bản trong việc tăng tốc kiến

thức trong các lĩnh vực khác nhau như học máy, ngôn ngữ

tự nhiên, khoa học nhận thức và tâm lý học. Tóm tắt văn

bản cho phép tạo ra các công cụ, phương pháp, bộ dữ liệu

và tài nguyên mới phục vụ cho nhu cầu nghiên cứu và công

nghiệp. Tóm tắt văn bản tìm thấy các ứng dụng trong việc

tóm tắt các tài liệu dài như sách, bài đăng trên mạng xã hội,

phân tích tình cảm, tin tức, email, tài liệu pháp lý, tài liệu y

sinh và bài báo khoa học [2]. Các ứng dụng của miền Tóm

tắt văn bản được liệt kê dưới đây:

A. Công nghiệp

Việc sử dụng tính năng tóm tắt văn bản trong lĩnh vực

công nghiệp là để tự động cô đọng các báo cáo, tài liệu và

nhật ký dữ liệu dài, tạo điều kiện cho việc ra quyết định

nhanh hơn và truy xuất thông tin hiệu quả

B. Y tế

Trong lĩnh vực y tế, tính năng tóm tắt văn bản giúp tóm

tắt hồ sơ y tế, tài liệu nghiên cứu và lịch sử bệnh nhân rộng

rãi, cho phép các nhà cung cấp dịch vụ chăm sóc sức khỏe

truy cập thông tin quan trọng một cách nhanh chóng để đưa

ra quyết định chẩn đoán và điều trị.

C. Phương tiện truyền thông

tóm tắt văn bản sử dụng trong ngành truyền thông tin

tức để tạo ra các bản tóm tắt ngắn gọn về các bài báo và báo

cáo, giúp người đọc truy cập nhanh vào các điểm chính của

câu chuyện.

D. Giáo dục

Trong giáo dục, tóm tắt văn bản hỗ trợ các nhà nghiên

cứu cô đọng lượng lớn tài liệu, cho phép họ xem xét các tác

phẩm liên quan một cách hiệu quả và luôn cập nhật những

phát triển mới nhất trong lĩnh vực của họ

E. Thương mại điện tử

Các nền tảng thương mại điện tử sử dụng tính năng tóm

tắt văn bản để tạo mô tả, đánh giá và tóm tắt sản phẩm, cung

cấp cho người mua hàng thông tin ngắn gọn để hỗ trợ họ

đưa ra quyết định mua hàng

F. Pháp luật

Trong lĩnh vực pháp lý, tóm tắt văn bản được sử dụng

để rút ra những hiểu biết quan trọng từ các vụ án kéo dài,

các tài liệu pháp lý và hợp đồng, hỗ trợ luật sư và chuyên

gia pháp lý trong việc phân tích và nghiên cứu vụ việc.

3. CÁC PHƯƠNG PHÁP TÓM TẮT VĂN BẢN

- Phương pháp trích xuất (Extractive)

Tóm tắt trích xuất bao gồm việc chọn các câu hoặc cụm

từ trực tiếp từ văn bản nguồn để tạo thành một bản tóm tắt.

Cách tiếp cận này dựa vào việc xác định các phần mang tính

thông tin và tiêu biểu nhất của nội dung gốc. Các phương

pháp khai thác thường sử dụng phương pháp phỏng đoán,

thuật toán hoặc mô hình học máy để xếp hạng và lựa chọn

các câu dựa trên các yếu tố như tầm quan trọng, tầm quan

trọng hoặc mức độ dư thừa. Có nhiều loại mô hình khác

nhau như mô hình Graph-based, mô hình dựa trên

Cluster(cụm), các mô hình Machine learning được sử dụng

trong tóm tắt trích xuất.

- Phương pháp trừu tượng (Abstractive)

Tóm tắt trừu tượng nhằm mục đích tạo ra các bản tóm

tắt có thể chứa các từ hoặc cụm từ không có trong văn bản

nguồn. Các phương pháp trừu tượng đòi hỏi sự hiểu biết sâu

sắc hơn về nội dung của văn bản và khả năng tạo ra các bản

tóm tắt mạch lạc và ngắn gọn bằng ngôn ngữ tự nhiên. Quá

trình chuyển đổi từ tóm tắt khai thác sang tóm tắt trừu tượng

đã được thúc đẩy bởi những tiến bộ trong mô hình dựa trên

mạng thần kinh và kỹ thuật học sâu [3, 4]. Có nhiều loại mô

hình khác nhau như mô hình sequence-to-sequence, Mạng

tạo Pointer Generator Network, Mô hình học tăng cường

và BERT (Bidirectional Encoder Representations from

Transformers).

- Phương pháp lai (Hybrid)

Tóm tắt văn bản lai là một cách tiếp cận kết hợp cả

phương pháp trích xuất và trừu tượng để tạo ra một bản tóm

tắt. Trong phương pháp kết hợp, hệ thống có thể sử dụng

các phương pháp trích xuất để xác định các câu hoặc cụm

từ chính, sau đó sử dụng các kỹ thuật trừu tượng để diễn đạt

lại và hợp nhất chúng thành một bản tóm tắt gắn kết hơn.

Các phương pháp tóm tắt kết hợp có xu hướng tạo ra các

bản tóm tắt có chất lượng cao hơn so với các phương pháp

trích xuất thuần túy. Điều này là do họ có thể nắm bắt được

bản chất của văn bản một cách hiệu quả hơn. Tóm tắt lai ít

phức tạp hơn các phương pháp tóm tắt trừu tượng thuần túy.

4. CÁC MÔ HÌNH CÓ THỂ ỨNG DỤNG TRONG

TÓM TẮT VĂN BẢN

4.1. LSTM Model

Hình 1. LSTM truyền thống (bộ nhớ ngắn hạn dài) có ba cổng:

cổng đầu vào, cổng quên và cổng đầu ra

LSTM (Long Short-Term Memory) là một thuật toán

trong trí tuệ nhân tạo và học máy, phát triển bởi Hochreiter

và Schmidhuber vào năm 1997. Đây là một loại mạng nơ-

ron hồi quy (RNN) được sử dụng rộng rãi trong nhận dạng

âm thanh, hình ảnh và xử lý ngôn ngữ tự nhiên. LSTM nổi

bật với khả năng "nhớ" và "quên" thông tin thông qua các

cổng (gates) khác nhau, cho phép mô hình xử lý và lưu giữ

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 65thông tin quan trọng qua nhiều bước thời gian [5], giúp khắc

phục vấn đề vanishing gradient. Vanishing gradient là một

vấn đề thường gặp trong mạng nơ-ron sâu, đặc biệt là

RNNs, khi các gradients trở nên rất nhỏ trong quá trình lan

truyền ngược, làm cho quá trình học chậm hoặc dừng lại.

LSTM sử dụng các cổng để duy trì gradients ổn định hơn,

giúp mô hình học tốt hơn và duy trì thông tin quan trọng

qua nhiều bước thời gian.

Nội dung của khối bộ nhớ được kiểm soát bởi ba cổng

này. Ở đây, −1 và  lần lượt là nội dung của các ô nhớ

trước đó và hiện tại, ℎ−1 và ht lần lượt là đầu ra của trạng

thái trước đó và trạng thái hiện tại,  là một vectơ đầu vào,

X là phép nhân theo bit, + là tổng theo bit, ℎ ℎ là

hàm tang hyperbol,  là hàm sigmoid. , , , và  là

độ lệch của các cổng khác nhau.

Các bước hoạt động:

LSTM nhận vectơ đầu vào () và trạng thái trước đó

(ht−1, −1).

Cổng quên (forget gate) quyết định thông tin nào cần

loại bỏ khỏi trạng thái ô trước đó (−1), dựa trên vectơ đầu

vào và trạng thái ẩn trước đó:

=(+ℎℎ−1+) (1)

ft sẽ có giá trị từ 0-1 nếu gần 0 nghĩa là loại bỏ hoặc nếu

gần 1 thì thông tin sẽ được giữ lại để tiếp tục.

=(+ℎℎ−1+ (2)

=−1+ℎ(+ℎℎ−1+) (3)

Cổng đầu ra lấy nội dung ℎ−1 của trạng thái trước đó,

vectơ đầu vào  và độ lệch  làm đầu vào và tạo ra 

làm đầu ra. Cuối cùng, nội dung của trạng thái hiện tại ℎ

được tạo ra bằng cách sử dụng giá trị của .

=(+ℎℎ−1+ (4)

ℎ=ℎ() (5)

4.2. Bidirectional LSTM model

Hình 2. Chiều thuận và nghịch trong LSTM hai chiều

LSTM hai chiều (Bidirectional LSTM) là một loại đặc

biệt của LSTM cho phép luồng dữ liệu đi theo cả hai hướng.

Trong LSTM thông thường, dữ liệu chỉ chảy theo một

hướng, tức là nó có thể theo hướng tới (forward) hoặc theo

hướng lui (backward). Nhưng việc sử dụng LSTM hai chiều

là để dữ liệu đầu vào có thể chảy theo cả hai hướng: tiến và

lui. Ứng dụng chính của điều này là cho phép mô hình nhớ

được cả thông tin quá khứ và tương lai. Trong LSTM hai

chiều, thông tin quá khứ được bảo toàn cẩn thận.

Ví dụ có thể khi một câu nói ‘Tôi đi vào…’ và câu được

cung cấp là ‘Tôi đã đi vào nhà’. Điều này có thể được sử

dụng để dự đoán phần còn lại của câu là ’Tôi đi vào nhà’,

LSTM hai chiều có thể sử dụng để rút ra thông tin quá khứ

từ tương lai hoặc tương lại này từ thông tin từ quá khứ.

4.3. Sequence-To-Sequence (Seq2Seq)

Các mô hình Seq2Seq đã được sử dụng cho nhiều nhiệm

vụ trong xử lý ngôn ngữ tự nhiên như dịch máy, nhận dạng

giọng nói, tạo chú thích cho video,... Mô hình Seq2Seq bao

gồm hai phần chính là bộ mã hóa (encoder) và bộ giải mã

(decoder) [6]. Chức năng chính của bộ mã hóa là mã hóa

văn bản nguồn thành vector ngữ cảnh, giúp bảo toàn thông

tin có trong văn bản nguồn. Chức năng của bộ giải mã là

tạo ra từ mục tiêu cho mỗi bước thời gian dựa trên vector

ngữ cảnh được tạo bởi bộ mã hóa.

Hình 3. Cấu trúc mô hình Seq2Seq with Attention

Tuy nhiên, các mô hình cơ bản gặp nhiều vấn đề như

thiếu từ vựng, không mạch lạc, từ lặp lại trong bản tóm tắt.

Để khắc phục những vấn đề này, cơ chế attention đã được

đưa ra.

Cơ chế attention tạo ra một vector attention giúp bộ giải

mã biết cần tập trung vào phần nào của vector ngữ cảnh để

tạo ra một bản tóm tắt giữ nguyên ngữ cảnh của bài viết gốc

[7]. Bộ giải mã được huấn luyện dựa trên phương pháp

teacher forcing, buộc nó phải tạo ra một từ tương tự hoặc

giống với từ mục tiêu. Với sự trợ giúp của tăng cường dữ

liệu (data augmentation), các từ trong bài viết được huấn

luyện sẽ được thay thế bằng các từ đồng nghĩa tương ứng.

Bằng cách này, các từ được thay đổi và vector ngữ cảnh cho

bài viết được tạo ra dựa trên câu đã thay đổi và bộ giải mã

bị buộc phải tạo ra các từ tương tự. Vì vậy, các từ mới có

thể được đưa vào các bản tóm tắt được tạo ra và các câu có

ngữ pháp, mạch lạc hơn có thể được tạo ra từ mô hình sau

quá trình huấn luyện.

Trong bài này, mô hình Seq2Seq với encoder sẽ gồm Bi

LSTM và decoder sẽ gồm LSTM.

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 664.4. BERT Model

Vào cuối năm 2018, một nhóm các nhà khoa học từ

phòng thí nghiệm Ngôn ngữ AI của Google dưới sự lãnh

đạo của J.Devlin đã trình bày một mô hình ngôn ngữ mới

có tên BERT [9]. Mô hình này nhằm mục đích quá trình học

sâu giai đoạn đầu về cách biểu diễn văn bản hai chiều để sử

dụng sau này trong các mô hình học máy. Ưu điểm của mô

hình này là dễ sử dụng, bao gồm việc chỉ thêm một lớp đầu

ra vào kiến trúc thần kinh hiện có để thu được các mô hình

văn bản vượt qua độ thiếu chính xác của tất cả các mô hình

hiện có trong một số vấn đề xử lý văn bản tự nhiên. Có hai

loại tác vụ xử lý văn bản tự nhiên: tổng thể, hoạt động với

văn bản ở cấp độ câu và các văn bản được mã hóa, chẳng

hạn như trả lời một câu hỏi và ghi nhận tác giả của các thực

thể, tạo ra kết quả chi tiết hơn ở cấp độ các thành phần văn

bản riêng lẻ. Cả hai loại vấn đề gần đây đều sử dụng các mô

hình được đào tạo trước, điều này có thể giảm đáng kể thời

gian thiết kế và đào tạo các mô hình riêng trong khi vẫn duy

trì mức hiệu quả cao [8,10].

BERT cố gắng khắc phục hạn chế này bằng cách sử dụng

phương pháp học theo cái gọi là “mô hình ngôn ngữ được

che giấu”, nghĩa là, chức năng mục tiêu của việc học một

cách biểu diễn nhất định chính thức hóa nhiệm vụ dự đoán

một từ được chọn ngẫu nhiên và được che giấu trong văn

bản, chỉ tính đến bối cảnh xung quanh. Do đó, một máy biến

áp hai chiều sâu sẽ được huấn luyện. Quá trình huấn luyện

mô hình BERT bao gồm hai giai đoạn: huấn luyện trước về

dữ liệu chưa được gắn nhãn và huấn luyện bổ sung về dữ

liệu đã được dán nhãn cho một vấn đề ứng dụng cụ thể. Tùy

thuộc vào nhiệm vụ, quy trình đào tạo lại và các kiến trúc

được sử dụng có thể khác nhau, mặc dù chúng đều dựa trên

cùng một mô hình với cùng một bộ tham số. Các tác giả đã

đào tạo hai phiên bản của mạng thần kinh - một phiên bản

tiêu chuẩn có 12 lớp và 768 tọa độ trong chế độ xem (tổng

cộng 110 triệu tham số được đào tạo) và một phiên bản lớn

với 24 lớp và 1024 tọa độ (340 triệu tham số) [9].

4.5. Roberta Model

RoBERTa được đề xuất bởi Liu và các đồng nghiệp [11].

Nó được phát triển để tối ưu hóa mô hình BERT được đào

tạo trước. Mô hình RoBERTa sử dụng cùng một kiến trúc

mô hình BERT được đào tạo trước. Những điểm khác biệt

chính của RoBERTa so với BERT là: Mô hình RoBERTa

được đào tạo trên một tập dữ liệu lớn hơn gồm 160GB tài

liệu. Tập dữ liệu này là sự kết hợp của năm tập dữ liệu:

BOOKCORPUS [12] Wikipedia tiếng Anh, CC-News [13],

OpenWebtext [14] và Stories [15]). RoBERTa mất nhiều

thời gian hơn BERT để đào tạo mô hình với 500K bước.

Phương pháp đào tạo của RoBERTa khác với BERT. Mô

hình RoBERTa đã loại bỏ tác vụ Dự đoán câu tiếp theo

(NSP) khỏi quy trình đào tạo của nó. Thay vào đó, nó được

đào tạo bằng DynamicMasking để các mã thông báo bị che

giấu sẽ được tạo ra khi một câu được đưa vào mô hình. Mô

hình được đào tạo với kích thước lô lớn hơn nên nó ngăn

ngừa nhiễu tốt hơn trong quá trình đào tạo. Chiều dài tối đa

của một vectơ câu là 512. Mô hình RoBERTa được đào tạo

bằng mô hình BERTLARGE (L = 24, H = 1024, A = 16,

355M tham số). Trong mô hình đề xuất của chúng tôi, chúng

tôi sử dụng mô hình RoBERTa có vectơ câu có chiều dài tối

đa là 256 và kích thước lô là 256. Trong quá trình đào tạo,

chúng tôi đóng băng mô hình RoBERTa và tinh chỉnh nó

trên tập dữ liệu CNN.

5. MỘT SỐ KẾT QUẢ THỰC NGHIỆM CỦA CÁC

MÔ HÌNH TRÊN

Dưới đây là kết quả nghiên cứu của nhóm Khang cùng

các đồng nghiệp [16] với tập dữ liệu 95,579, tài liệu từ các

trang báo điện tử: vnexpress, tuổi trẻ, dân trí, dân viêt, lao

động.

Bảng 1 ta thấy BERT có điểm cao nhất khi thực hiện tóm

tắt trích xuất. và điểm số khi tóm tắt trừu tượng cũng rất ấn

tượng. Với việc kết hợp với copy-generator model với

BERT cho ra kết quả khi thực hiện tóm tắt trừu tượng tốt

nhất.

Bảng 1. ROUGE score của các model tóm tắt trích xuất và tóm

tắt trừu tượng

6. KẾT LUẬN

- Những mô hình có thể sử dụng để thực hiện tóm tắt

văn bản nội dung tiếng Việt.

- Có các hiểu biết về kĩ thuật tóm tắt văn bản nói chung

và tóm tắt văn bản tiếng Việt nói riêng

- Nghiên cứu tổng quan về một số mô hình

Deeplearning.

- Trong tương lai, đề xuất mô hình, kỹ thuật để tóm tắt

văn bản tiếng Việt. Xây dựng mô hình áp dụng và có kết

quả trực quan.

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 67TÀI LIỆU THAM KHẢO

[1]. Divakar Yadav1, Jalpa Desai, Arun Kumar, Yadav2 Automatic Text Summarization Methods: A Comprehensive

Review 1-2.

[2]. M. F. Mridha, Kamruddin Nur, Aklima Akter Lima, Sujoy Chandra Das, Mahmud Hasan & Muhammad Mohsin

Kabir, 2021. A Survey of Automatic Text Summarization: Progress, Process and Challenges, pp. 31297.

[3]. Rush, A. M., Chopra, S., & Weston, J. 2015. A Neural Attention Model for Abstractive Sentence

Summarization. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP).

[4]. See, A., Liu, P. J., & Manning, C. D. 2017. Get To The Point: Summarization with Pointer-Generator Networks.

Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (ACL).

[5]. Lipton, Z. 2015. A Critical Review of Recurrent Neural Networks for Sequence Learning. arXiv, arXiv:1506.00019.

[6]. Niu, J., Sun, M., Rodrigues, J.J. and Liu, X May. 2019. A Novel Attention Mechanism Considering Decoder

Input for Abstractive Text Summarization. In ICC 2019-2019 IEEE International Conference on Communications (ICC) ,

(pp. 1-7). IEEE

[7]. Bahdanau, D., Cho, K. and Bengio, Y. 2014. Neural machine translation by jointly learning to align and translate

.arXiv preprint arXiv:1409.04.

[8]. Zihang Dai, Zhilin Yang, Yiming Yang, William W. 2019. Cohen, and Ruslan Salakhutdinov ...Transformer-XL:

Attentive Language Models Beyond a Fixed-Length Context. (January 2019). Retrieved March 24, 2020 from

http://dx.doi.org/

[9]. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. BERT: Pre-training of

DeepBidirectional Transformers for Language Understanding. Retrieved March 20, 2020,

fromhttp://arxiv.org/abs/1810.04805

[10]. Jeremy Howard and Sebastian Ruder. 2018. Universal Language Model Fine-tuning for Text Classification.

Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: LongPapers).

2018.DOI: https: //doi.org/10.18653 / v1 / p18-1031

[11]. Liu, Yinhan; Ott, Myle; Goyal, Naman; Du, Jingfei; Joshi, Mandar; Chen, Danqi; Levy, Omer; Lewis, Mike;

Zettlemoyer, Luke.Stoyanov, Veselin: RoBERTa: A Robustly Optimized BERT Pretraining Approach.

2019.arXiv:1907.11692v1

[12]. Zhu, Yukun; Kiros, Ryan; Zemel, Richard; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler,

Sanja, 2015. : Aligning books and movies: Towards story-like visual explanations by watching movies and reading

books.arXiv preprint arXiv:1506.06724

[13]. Nagel, Sebastian: Cc-news. http: //web.archive.org/save/http: //commoncrawl.org/2016/10/newsdataset-available.

2016.

[14]. Gokaslan, Aaron; Cohen, Vanya Openwebtext corpus. 2019. http://web.archive.org/

save/http://Skylion007.github.io/ OpenWebTextCorpus

[15]. Trinh, Trieu H.; Le, Quoc V.: A simple method for commonsense reasoning. 2018. arXiv preprint

arXiv:1806.02847

[16]. Khang Nhut Lam, Tuong Thanh Do, Nguyet-Hue Thi Pham, and Jugal Kalita. Vietnamese Text Summarization

Basedon Neural Network Models. 2022. DOI:10.1007/978-3-030-97610-1_8

[17]. Andrew M. Dai and Quoc V. Le. 2015. Semi-supervised Sequence Learning. In Advances in NeuralInformation

Processing Systems, 3079-3087. Retrieved March 20, 2020. fromhttp://papers.nips.cc/paper/5949-semi-supervised-

sequence-learning.pdf

Nghiên cứu NLP và xây dựng ứng dụng rút gọn nội dung văn bản tiếng Việt

Bài viết trình bày nghiên cứu ứng dụng NLP để xây dựng ứng dụng rút gọn văn bản tiếng Việt, sử dụng Word2vec, LSTM, Seq2Seq, Roberta, Bert. Đánh giá các mô hình và đề xuất hướng phát triển.

Chủ đề:

Tài liệu liên quan

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi