
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------
Viengnakhone SEESAMOUD
NGHIÊN CỨU PHƯƠNG PHÁP TÓM TẮT VĂN BẢN VÀ
THỬ NGHIỆM VỚI DỮ LIỆU TIẾNG LÀO
Chuyên ngành: Khoa học máy tính
Mã số: 8.48.01.01
TÓM TẮT ĐỀ ÁN TỐT NGHIỆP THẠC SĨ
HÀ NỘI - NĂM 2025
Đề án tốt nghiệp được hoàn thành tại:

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: PGS.TSKH. Hoàng Đăng Hải
Phản biện 1: ………………………………………………….
Phản biện 2: ………………………………………………….
Đề án tốt nghiệp sẽ được bảo vệ trước Hội đồng chấm đề án
tốt nghiệp thạc sĩ tại Học viện Công nghệ Bưu chính Viễn
thông
Vào lúc: ....... giờ ....... ngày ....... tháng .......
năm ...............
Có thể tìm hiểu đề án tốt nghiệp tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn
thông.

1
MỞ ĐẦU
Trong bối cảnh hội nhập khu vực Đông Nam Á, Việt
Nam và Lào luôn duy trì mối quan hệ hữu nghị, hợp tác toàn
diện trên nhiều lĩnh vực, bao gồm kinh tế, văn hóa, giáo dục và
chính trị. Tuy nhiên, dù có chung đường biên giới và mối quan
hệ truyền thống lâu đời, rào cản ngôn ngữ giữa hai quốc gia
vẫn là một trở ngại lớn trong việc giao lưu và trao đổi. Việc
thiếu các công cụ hỗ trợ trong xử lý ngôn ngữ tự nhiên giữa
tiếng Việt và tiếng Lào đã gây khó khăn cho cả việc giao tiếp
hằng ngày, nghiên cứu học thuật và phát triển kinh tế - xã hội
chung.
Một trong số những ứng dụng xử lý ngôn ngữ tự nhiên
có ý nghĩa thiết thực đối với nhiều lĩnh vực trong đời sống là
tóm tắt văn bản. Với lượng dữ liệu văn bản ngày càng nhiều
trên mạng Internet, việc truy xuất thông tin từ lượng dữ liệu
khổng lồ này đặt ra những yêu cầu cấp thiết về việc nghiên cứu
và xây dựng các giải pháp tóm tắt văn bản, giúp người dùng
nhanh chóng nắm bắt được thông tin kịp thời. Các phương
pháp xử lý ngôn ngữ tự nhiên (NLP) đã được nghiên cứu ứng
dụng vào nhiều lĩnh vực, góp phần nâng cao hiệu quả trong
tóm tắt văn bản. Tuy nhiên, việc nghiên cứu áp dụng các
phương pháp này vào bài toán tóm tắt tiếng Việt và tiếng Lào
còn hạn chế. Các tập dữ liệu mẫu dùng cho huấn luyện còn
chưa đầy đủ. Còn khá ít các nghiên cứu đánh giá về tính hiệu
quả của các phương pháp áp dụng cho các đặc thù của ngôn
ngữ, điển hình như tiếng Việt và tiếng Lào.
Nghiên cứu về lĩnh vực xử lý ngôn ngữ tự nhiên là lĩnh
vực tôi đang rất quan tâm. Đặc biệt là khi thực hiện học tập
nghiên cứu bằng tiếng Việt, tôi nhận thấy các phương pháp tóm
tắt văn bản rất hữu ích trong việc hỗ trợ tìm kiếm thông tin cô
đọng từ các văn bản một cách nhanh chóng, hiệu quả. Chính vì
vậy, tôi chọn đề tài “Nghiên cứu các phương pháp tóm tắt
văn bản và thử nghiệm với dữ liệu tiếng Lào” làm đề án tốt
nghiệp của mình.

2
Mục tiêu tôi mong muốn đạt được là tìm hiểu, khảo sát
các phương pháp NLP hiện đại ứng dụng trong bài toán tóm tắt
văn bản, thực hiện một số thử nghiệm với các tập dữ liệu hiện
có về tiếng Việt và tiếng Lào. Qua đó có thể đánh giá mức độ
thực hiện của các phương pháp đối với các đặc thù của ngôn
ngữ tiếng Việt và đặc biệt là ngôn ngữ tiếng Lào của quê
hương tôi. Kết quả này có thể được áp dụng trong tương lai là
hướng tới việc phát triển một hệ thống dịch tự động giữa tiếng
Việt và tiếng Lào, từ đó hỗ trợ việc giao tiếp, hợp tác và trao
đổi thông tin giữa hai quốc gia.
Bố cục luận văn ngoài phần mở đầu và kết luận có 03
chương chính, như sau:
Chương 1. Tổng quan về vấn đề tóm tắt văn bản: cơ
sở lý thuyết về các vấn đề Xử lý ngôn ngữ tự nhiên và các ứng
dụng; Bài toán tóm tắt văn bản với ý nghĩa; đặc điểm của ngôn
ngữ tiếng Việt và tiếng Lào trong bài toán tóm tắt văn bản;
Trình bày vấn đề nghiên cứu đặt ra trong bài.
Chương 2. Khảo sát, đánh giá các phương pháp tóm
tắt văn bản sử dụng NLP: phân tích một số mô hình NLP
hiện đại cho tóm tắt văn bản; Khảo sát và đánh giá các phương
pháp tóm tắt văn bản sử dụng NLP; Phân tích đánh giá một số
mô hình hỗ trợ tóm tắt văn bản đa ngôn ngữ sử dụng vào tóm
tắt văn bản; Phân tích các phương pháp tạo lập Dataset cho tóm
tắt văn bản; Trình bày một số phương pháp đánh giá cho hệ
thống tóm tắt văn bản; Đề xuất mô hình thử nghiệm cho bài
toán tóm tắt văn bản tiếng Việt và tiếng Lào.
Chương 3. Thử nghiệm mô hình tóm tắt văn bản với
tiếng Việt và tiếng Lào: đề xuất môi trường thử nghiệm tóm
tắt văn bản tiếng Việt và tiếng Lào bao gồm các nội dung:
Thiết lập môi trường thử nghiệm với công cụ phần mềm, thư
viện hỗ trợ, thiết bị phần cứng, quy trình thử nghiệm; Tạo lập
các tập dữ liệu thử nghiệm từ các bộ dữ liệu VietNews và
LaoNewsClassification; xây dựng mô hình và huấn luyện mô

3
hình; Đánh giá hiệu năng mô hình; Thảo luận và đánh giá kết
quả thử nghiệm.

