ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
NÔNG TIẾN CÔNG
TÓM TẮT VĂN BẢN DỰA VÀO TRÍCH XUẤT CÂU
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
LẠNG SƠN, 2018
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
NÔNG TIẾN CÔNG
TÓM TẮT VĂN BẢN DỰA VÀO TRÍCH XUẤT CÂU
Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01 01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học: PGS-TS Đoàn Văn Ban
LẠNG SƠN, 2018
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn là sản phẩm nghiên cứu, tìm hiểu của cá nhân
tôi. Những điều được trình bày trong luận văn hoặc là của cá nhân tôi hoặc là
được tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có xuất
xứ rõ ràng và được trích dẫn hợp pháp.
Tôi xin hoàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định
cho lời cam đoan của mình.
Lạng Sơn, tháng 4 năm 2018
TÁC GIẢ LUẬN VĂN
Nông Tiến Công
i
MỤC LỤC
MỤC LỤC .......................................................................................................... i
DANH MỤC CÁC HÌNH ................................................................................ iii
DANH MỤC CÁC BẢNG............................................................................... iv
MỞ ĐẦU ........................................................................................................... 1
Chương 1 TÓM TẮT VĂN BẢN TIẾNG VIỆT .............................................. 2
1.1. Bài toán tóm tắt văn bản ................................................................. 2
1.1.1. Phân loại tóm tắt ....................................................................... 2
1.1.3. Mô hình tóm tắt văn bản và một số phương pháp tiếp cận ...... 5
1.2. Các phương pháp đánh giá ............................................................. 9
1.2.1. Các phương pháp đánh giá trong ........................................... 10
1.2.2. Các phương pháp đánh giá ngoài ........................................... 11
1.3. Tóm tắt văn bản tiếng Việt dựa vào trích xuất câu và một số vấn đề liên quan ........................................................................................ 12
1.3.1. Đặc điểm ngôn ngữ trong văn bản tiếng Việt......................... 12
1.3.2. Một số hướng tiếp cận bài toán tóm tắt văn bản tiếng Việt ... 15
1.3.3. Mô hình tóm tắt văn bản tiếng Việt dựa vào trích xuất câu ... 17
1.4. Tổng kết chương ........................................................................... 18
Chương 2 PHƯƠNG PHÁP TÓM TẮT VĂN BẢN DỰA TRÊN ĐỘ TƯƠNG ĐỒNG CÂU ........................................................................................ 19
2.1. Một số khái niệm và phương pháp tính độ tương đồng câu ......... 19
2.1.1. Độ tương đồng ........................................................................ 19
ii
2.1.2. Độ tương đồng ngữ nghĩa và phương pháp trích xuất câu dựa trên độ tương đồng ngữ nghĩa câu. ........................................................... 20
2.1.3. Tính độ tương đồng theo độ đo Cosine .................................. 21
2.1.4. Phương pháp tính độ tương đồng câu dựa vào chủ đề ẩn ...... 22
2.1.5. Phương pháp tính độ tương đồng câu dựa vào mạng Wikipedia ................................................................................................................... 25
2.2. Mô hình tóm tắt văn bản tiếng Việt dựa trên trích xuất câu quan trọng theo phương pháp tính độ tương đồng câu .......................... 28
2.2.1. Giai đoạn tiền xử lý ................................................................ 29
2.2.2. Giai tạo danh sách câu khả dụng ............................................ 32
2.2.3. Giai đoạn sinh văn bản tóm tắt ............................................... 34
2.3. Tổng kết chương ........................................................................... 34
Chương 3 THỰC NGHIỆM MÔ HÌNH TÓM TẮT VĂN BẢN TIẾNG VIỆT ............................................................................................................. 35
3.1. Môi trường thực nghiệm ............................................................... 35
3.2. Chương trình tóm tắt văn bản ....................................................... 35
3.3. Tiến hành thực nghiệm ................................................................. 37
3.3.1. Cơ sở dữ liệu tổng thể ............................................................. 37
3.3.2. Mô hình suy luận chủ đề ẩn .................................................... 37
3.3.3. Dữ liệu thực nghiệm ............................................................... 38
3.3.4. Đánh giá độ chính xác của mô hình tóm tắt văn bản ............. 38
3.4. Tổng kết chương ........................................................................... 46
KẾT LUẬN ..................................................................................................... 47
TÀI LIỆU THAM KHẢO ............................................................................... 48
iii
DANH MỤC CÁC HÌNH
Hình 1.1. Mô hình hệ thống tóm tắt văn bản [13] .................................... 5
Hình 1.2. Mô hình chung cho tóm tắt văn bản tiếng Việt dựa vào trích xuất
câu .................................................................................................................... 17
Hình 2.1. Mô hình tính độ tương đồng câu với chủ đề ẩn ..................... 24
Hình 2.2. Mối quan hệ giữa đồ thị bài viết và đồ thị chủ đề Wikipedia 26
Hình 2.3. Mô hình tóm tắt văn bản tiếng Việt ........................................ 28
Hình 2.4. Các câu sau khi tách trong cửa sổ nhỏ góc dưới bên trái ....... 29
Hình 2.5. Văn bản sau khi chuẩn hóa ..................................................... 30
Hình 2.6. Xác định từ dừng và ký tự vô ích............................................ 30
Hình 3.1. Giao diện chương trình ........................................................... 36
Hình 3.2. Các từ đặc trưng của lĩnh vực giáo dục có xác suất xuất hiện cao
ở chủ đề 83, 116, 136 trong mô hình suy luận chủ đề ẩn ............................... 38
Hình 3.3. Kết quả tóm tắt văn bản theo phương pháp tổ hợp với tỷ lệ nén
30% .................................................................................................................. 40
Hình 3.4. Độ chính xác của các phương pháp tóm tắt theo tỷ lệ nén ..... 44
Hình 3.5. Độ chính xác của các phương pháp tóm tắt ở tỷ lệ nén 30% đối
với một số lĩnh vực .......................................................................................... 45
iv
DANH MỤC CÁC BẢNG
Bảng 3.1. Kết quả tóm tắt 6 nhóm văn bản theo tỷ lệ nén 10% ...................... 41
Bảng 3.2. Kết quả tóm tắt 6 nhóm văn bản theo tỷ lệ nén 20% ...................... 42
Bảng 3.3. Kết quả tóm tắt 6 nhóm văn bản theo tỷ lệ nén 30% ...................... 43
1
MỞ ĐẦU
Với sự phát triển của công nghệ và Internet hiện nay, thông tin thời sự
được cập nhật trên các Website với tốc độ vũ bão. Điều đó đã mang lại cho con
người rất nhiều lợi ích thiết thực nhưng nó cũng khiến họ gặp phải không ít khó
khăn khi sàng lọc lấy thông tin hữu ích từ nguồn dữ liệu khổng lồ ấy.
Theo đánh giá của công ty Oracle1, hiện có đến 80% dữ liệu trên thế giới
là dữ liệu văn bản. Vì vậy, việc tổ chức quản lý và khai thác hiệu quả nguồn dữ
liệu này là những bài toán lớn cần được quan tâm nghiên cứu và giải quyết.
Tóm tắt văn bản tự động nhằm nhanh chóng thu được những thông tin quan
trọng, tăng hiệu quả xử lý thông tin là một trong các hướng tiếp cận khai thác
dữ liệu văn bản nhận được sự quan tâm nghiên cứu của nhiều nhà khoa học,
nhóm nghiên cứu cũng như các công ty lớn trên thế giới.
Tóm tắt văn bản tự động có nhiều ứng dụng trong thực tế như: tóm tắt tin
tức, tóm tắt kết quả tìm kiếm trong các máy tìm kiếm, tóm tắt hình ảnh, tóm tắt
video,...2
Do những đặc thù của ngôn ngữ nên việc giải quyết bài toán tóm tắt văn
bản tiếng Việt đặt ra cho các nhà nghiên cứu những thách thức, khó khăn riêng.
Các kết quả khả quan từ những nghiên cứu về tóm tắt văn bản tiếng Việt được
công bố hiện nay là cơ sở cho các dự án xây dựng hệ thống tóm tắt văn bản
tiếng Việt tự động hiệu quả trong tương lai [4], [5], [6], [7], [8].
Với việc chọn đề tài “Tóm tắt văn bản dựa vào trích xuất câu”, luận
văn trung vào việc nghiên cứu, đánh giá và lựa chọn phương pháp xây dựng
một mô hình tóm tắt văn bản tiếng Việt hiệu quả.
1 http://www.oracle.com/technetwork/testcontent/9ir2text-bwp-f-129974.pdf 2 https://en.wikipedia.org/wiki/Automatic_summarization
2
Chương 1
TÓM TẮT VĂN BẢN TIẾNG VIỆT
1.1. Bài toán tóm tắt văn bản
Theo Inderjeet Mani thì mục đích của tóm tắt văn bản tự động là: “Tóm tắt
văn bản tự động nhằm mục đích trích xuất nội dung từ một nguồn thông tin và trình
bày các nội dung quan trọng nhất cho người sử dụng theo một khuôn dạng súc tích
và gây cảm xúc đối với người sử dụng hoặc một chương trình cần đến” [13].
Theo Radev: “Văn bản tóm tắt là văn bản được tạo từ một hoặc nhiều văn
bản khác mà truyền tải được những thông tin quan trọng trong văn bản gốc nhưng
có độ dài không quá một nửa văn bản gốc (thường ngắn hơn đáng kể)” [11].
Như vậy, tóm tắt văn bản là việc tìm các ý chính của văn bản. Bản tóm tắt
là có ba đặc điểm sau [10], [11], [12], [13]:
- Bảo toàn nội dung chính so với văn bản gốc: Các nội dung quan trọng
hay nổi bật của bản gốc phải được giữ lại trong bản tóm tắt.
- Ngắn ngọn: bản tóm tắt thường ngắn hơn bản gốc nhiều.
- Dễ đọc: người sử dụng có thể đọc và hiểu được dễ dàng.
Việc đưa ra được một bản tóm tắt có chất lượng và không bị giới hạn bởi
miền ứng dụng được xác định là rất khó khăn nên các phương pháp giải quyết
bài toán tóm tắt văn bản thường chỉ hướng đến một kiểu văn bản cụ thể hoặc
một kiểu tóm tắt cụ thể.
1.1.1. Phân loại tóm tắt
Có nhiều cách phân loại tóm tắt văn bản khác nhau, sau đây là một số cách
phân loại tiêu biểu [13]:
1.1.1.1. Theo định dạng đầu ra
- Tóm tắt trích xuất (Extract): là một bản tóm tắt gồm các đoạn văn bản
được rút trích từ văn bản gốc.
3
- Tóm tắt tóm lược (Abstract): là một bản tóm tắt được tạo ra dựa trên các
thông tin quan trọng trong văn bản gốc.
1.1.1.2. Theo mức độ xử lý
- Tiếp cận mức ngoài (surface-level): thông tin được miêu tả dưới dạng
khái niệm về các đặc trưng nông (shallow feature). Các đặc trưng nông bao
gồm các thuật ngữ (term) quan trọng qua thống kê (dựa vào tần số của các thuật
ngữ trong văn bản), các thuật ngữ quan trọng dựa vào vị trí, các thuật ngữ trong
các cụm từ dấu hiệu hay các thuật ngữ trong câu truy vấn của người dùng. Kết
quả là một bản tóm tắt dạng trích xuất (extract).
- Tiếp cận mức sâu (deeper-level): ở mức này, bản tóm tắt có thể là dạng
trích xuất hoặc dạng tóm tắt (abstract) và cần phải sử dụng đến sinh tổng hợp
ngôn ngữ tự nhiên. Với dạng tiếp cận này, phải cần đến những phân tích về mặt
ngữ nghĩa, chẳng hạn sử dụng hướng tiếp cận thực thể để xây dựng dạng biểu
diễn của các thực thể văn bản (đơn vị văn bản) và mối quan hệ giữa các thực
thể rồi từ đó tìm ra phần quan trọng. Mối quan hệ giữa các thực thể gồm quan
hệ ngữ nghĩa như: đồng nghĩa, trái nghĩa, nghĩa hẹp, nghĩa rộng…, quan hệ cú
pháp: dựa trên cây phân tích cú pháp và các mối quan hệ khác.
1.1.1.3. Theo mục đích của bản tóm tắt
- Tóm tắt chỉ thị (Indicative): Đưa ra những thông tin ngắn gọn về chủ đề
chính của văn bản. Dạng tóm tắt này thường được sử dụng trong các hệ thống
tìm kiếm thông tin. Thông thường, độ dài của văn bản tóm tắt loại này chỉ từ 5
đến 10% độ dài của toàn bộ văn bản.
- Tóm tắt thông tin (Information): tóm tắt bao gồm tất cả các thông tin nổi
bật có trong văn bản nguồn tại nhiều mức độ chi tiết khác nhau.
- Tóm tắt đánh giá (Evaluation): tóm tắt nhằm mục đích đánh giá vấn đề
chính của văn bản nguồn, thể hiện quan điểm của tác giả đối với công việc của họ.
4
Việc phân loại tóm tắt dựa theo mục đích như trên không loại trừ lẫn nhau,
có thể một bản tóm tắt vừa có chức năng cung cấp tin tức lại vừa là kiểu trình
bày sơ lược.
1.1.1.4. Theo người dùng hoặc chủ đề
- Tóm tắt chung (Generalized): tóm tắt nhằm mục đích đưa ra các nội dung
quan trọng bao quát văn bản gốc.
- Tóm tắt hướng truy vấn (Query-based): tóm tắt nhằm mục đích đưa ra
kết quả dựa vào câu truy vấn của người.
- Tóm tắt hướng đến người dùng hoặc chủ đề (User focused or Topic
focused summaries): văn bản tóm tắt đáp ứng nhu cầu của người dùng cụ thể
hoặc chủ đề cụ thể nào đó.
1.1.1.5. Theo số lượng văn bản đầu vào
- Tóm tắt đơn văn bản: đầu vào là một văn bản
- Tóm tắt đa văn bản: đầu vào là một tập văn bản
1.1.1.6. Theo ngôn ngữ
- Tóm tắt đơn ngôn ngữ (Monolingual): Chỉ dựa trên một ngôn ngữ.
- Tóm tắt đa ngôn ngữ (Multilingual): Thực hiện tóm tắt trên nhiều loại
ngôn ngữ khác nhau.
Cách phân loại trên chỉ mang tính tương đối, trên thực tế một bản tóm tắt
có thể mang nhiều đặc trưng phân loại khác nhau. Ví dụ, bản tóm tắt tin tức
trong chương trình điểm báo của đìa truyền hình Việt Nam có thể được xếp vào
dạng tóm tắt chỉ thị, hoặc tóm tắt đa văn bản, hoặc tóm tắt phục vụ tìm kiếm,...
1.1.2. Một số thuật ngữ
- Tỷ lệ nén (Compression Rate): là độ đo thể hiện bao nhiêu thông tin
được cô đọng trong văn bản tóm tắt được tính bằng công thức:
(1.1)
5
SummaryLength: Độ dài văn bản tóm tắt
SourceLength: Độ dài văn bản nguồn
- Độ nổi bật hay liên quan (Salience or Relevance): là trọng số được gán
cho thông tin trong văn bản thể hiện độ quan trọng của thông tin đó đối với toàn
văn bản hay để chỉ sự liên quan của thông tin đó đối với chương trình của người
sử dụng.
- Sự cố kết (độ mạch lạc - coherence): Một văn bản tóm tắt gọi là cố kết
nếu tất cả các thành phần nằm trong nó tuân theo một thể thống nhất về mặt nội
dung và không có sự trùng lặp giữa các thành phần.
1.1.3. Mô hình tóm tắt văn bản và một số phương pháp tiếp cận
Hình 1.1. Mô hình hệ thống tóm tắt văn bản [13]
Về cơ bản hệ thống tóm tắt văn bản tự động được chia thành 3 giai đoạn
chính [13]:
- Phân tích (Analysis or Interpretation): biểu diễn và hiểu văn bản nguồn
- Biến đổi (Transformation): trích chọn những nội dung quan trọng
6
- Tổng hợp (Synthesis or Realization): tạo văn bản mới chứa những điểm
chính, quan trọng của văn bản gốc.
Trong mô hình trên, đầu vào của hệ thống có thể là một hoặc nhiều tài
liệu, văn bản hay các thông tin đa phương tiện như ảnh, âm thanh, video. Những
thông số chính được đề cập trong mô hình ảnh hưởng lớn đến hoạt động và chất
lượng văn bản tóm tắt của hệ thống là:
- Tỷ lệ nén: Tỷ lệ nén cảng thấp thì thông tin sẽ bị mất càng nhiều.
- Mục đích tóm tắt: Cho đại chúng hay cho nhóm người dùng cụ thể.
- Chức năng: Tóm tắt chỉ thị, tóm tắt thông tin, hay tóm tắt đánh giá
- Độ mạch lạc: Văn bản tóm tắt cần diễn đạt câu từ liền mạch hay chỉ bao
gồm các đoạn rời rạc.
1.1.3.1. Các phương pháp áp dụng trong pha phân tích
Trong pha này, văn bản nguồn được phân tích để xác định các đơn vị ngữ
liệu và các đặc trưng của chúng, kết quả của pha này là đầu vào cho pha biến
đổi. Các phương pháp áp dụng trong pha này bao gồm:
➢ Phương pháp thống kê
Các phương pháp thuộc loại này sử dụng các số liệu thống kê về độ quan
trọng của các từ, cụm từ, câu hoặc đoạn văn. Các phương pháp thống kê gồm:
- Dựa vào vị trí
+ Chủ đề, tiêu đề: tiêu đề hay chủ đề của các đoạn văn thường chứa các từ
và ngữ quan trọng.
+ Câu ở đầu hoặc cuối đoạn: xác suất câu đầu đoạn hay câu cuối đoạn
chứa ý chính của cả đoạn là rất lớn, đặc biệt là câu đầu đoạn. Ngoài ra các đoạn
đầu và cuối văn bản cũng quan trọng hơn các đoạn giữa.
+ Minh hoạ, chú thích: trong các câu chú thích, câu minh hoạ cho ảnh hay
đồ thị thường chứa các thông tin quan trọng.
7
- Dựa vào cụm từ dấu hiệu
Các cụm từ dấu hiệu có đặc điểm thống kê rất tốt. Sau các cụm từ này
thường là các từ hay câu quan trọng. Có hai loại cụm từ dấu hiệu:
+ Thứ nhất là các cụm từ mang ý nhấn mạnh, sau cụm từ này đoạn văn
quan trọng; chẳng hạn “nói chung là”, “đặc biệt là”, “tóm lại”, “cuối cùng thì”,
“trong bài viết này tôi muốn chỉ ra”, “bài viết nói về”, “nội dung gồm”...
+ Thứ hai là các cụm từ không quan trọng, sau cụm từ này là các thành
phần không có nhiều giá trị trong việc tóm tắt, chẳng hạn: “hiếm khi mà”, “bài
này không nói đến”, “không thể nào…”
- Dựa vào thống kê tần suất từ: Độ quan trọng của từ phụ thuộc vào số
lần xuất hiện của từ đó trong văn bản. Có thể dùng các kĩ thuật như tf-idf [23],
tập thuật ngữ thường xuyên (frequent item set) để xác định tần suất từ.
➢ Phương pháp cấu trúc
Các phương pháp này sử dụng các mối liên hệ cấu trúc - ngữ pháp - ngữ
nghĩa để xác định các đơn vị ngữ liệu quan trọng. Tư tưởng chính của các
phương pháp này là những đơn vị ngữ liệu nào có chứa các thành phần liên
quan nhiều với các thành phần khác sẽ có mức độ quan trọng cao. Việc đánh
giá các mối quan hệ sẽ dựa trên các mạng ngữ nghĩa hoặc các quan hệ cú pháp.
- Phương pháp sử dụng quan hệ giữa câu, đoạn: Phương pháp này xác
định mối quan hệ giữa các đoạn trong văn bản hay các câu trong đoạn với nhau
thông qua việc tính toán mức độ liên quan giữa chúng. Các độ Cosine, Euclide,
Jaccard… được chọn để xác định độ tương đồng giữa các câu hay đoạn văn bản
đó. Sau đó, ta chọn ra đoạn hay câu có độ liên quan lớn nhất.
- Phương pháp chuỗi từ vựng (lexical chains): Phương pháp liên kết từ
vựng sử dụng các từ điển quan hệ từ vựng để xây dựng các chuỗi từ liên kết
với nhau về mặt ngữ nghĩa. Sau khi xây dựng được chuỗi các từ vựng này, ta
đánh giá độ mạnh của chúng và chọn ra những câu phù hợp. Chuỗi từ vựng
8
không những chỉ dùng trong tóm tắt văn bản mà còn được coi là lý thuyết tổng
quát của vấn đề ngữ nghĩa trong xử lý ngôn ngữ tự nhiên [16].
- Phương pháp liên kết tham chiếu (word coreferences): Phương pháp
này gọi là phương pháp trích chọn trùng lặp (anaphora-based method). Theo
phương pháp này, các cụm trùng lặp được chọn ra, phân rã xem đâu là từ (cụm
từ) tham chiếu và từ (cụm từ) được tham chiếu. Sau khi phân tách các cụm
trùng lặp, chúng ta tạo chuỗi các từ (cụm từ) tham chiếu đến cùng một từ được
tham chiếu. Chuỗi dài nhất sẽ được coi là trọng tâm của đoạn, các câu chứa các
từ trong chuỗi này có một độ ưu tiên nào đó thì sẽ được chọn.
Kết thúc pha phân tích sẽ là việc tổng hợp các chỉ số đánh giá độ quan trọng
của các đơn vị ngữ liệu và thực hiện việc chọn các đơn vị ngữ liệu nào có độ quan
trọng lớn làm đầu vào cho pha sau. Có thể nhận thấy các phương pháp thống kê
dễ cài đặt hơn các phương pháp cấu trúc. Việc cài đặt các phương pháp thống kê
đơn thuần chỉ là áp dụng các công thức toán học, còn để cài đặt các phương pháp
cấu trúc thì lại cần thực hiện rất nhiều kĩ thuật về cấu trúc dữ liệu và thậm chí là
các kĩ thuật trong lĩnh vực trí tuệ nhân tạo. Tuy nhiên trong nhiều trường hợp
phương pháp cấu trúc cho kết quả tóm tắt tốt hơn các phương pháp thống kê.
1.1.3.2. Các phương pháp áp dụng trong pha biến đổi
Pha biến đổi có nhiệm vụ biến đổi đơn vị ngữ liệu được trích xuất trong
pha phân tích như cụm từ, câu, đoạn văn. Thông thường pha biến đổi thực hiện
rút gọn bản thân bên trong một câu, rồi có thể rút gọn đoạn mà không gây ảnh
hưởng đến độ chính xác. Các phương pháp trong pha biến đổi gồm [6]:
➢ Giản lược về cấu trúc câu
Lược bỏ các thành phần thừa, ít mang ý nghĩa trong câu, giúp cấu trúc câu
được thu gọn lại. Công việc này thường dựa trên phân tích cú pháp và phân tích
ngữ nghĩa các thành phần trong câu. Áp dụng phân tích cú pháp chúng ta được
các cấu trúc của câu, qua đó ta có thể thay thế thành phần bằng những thành
9
phần tương đương, ghép thành phần có nghĩa tương đương theo một luật nào
đó. Phương pháp này có thể làm câu ngắn gọn hơn, tuy nhiên khó bảo toàn
được văn phong.
➢ Giản lược về mặt ngữ nghĩa
Thay thế hoặc loại bỏ các từ, cụm từ có ý nghĩa cụ thể bằng những từ, cụm
từ ý nghĩa lúc này sẽ tổng quát, điển hình là:
- Trừu trượng hoá khái niệm: thay thế các khái niệm cụ thể bằng khái niệm
chung.
- Thay thế ngữ (cụm từ - phrase) tương đương: thay thế các ngữ đóng vai
trò như nhau trong câu bằng một ngữ chung.
1.1.3.3. Các phương pháp trong pha tổng hợp kết quả
➢ Phương pháp hiển thị phân đoạn
Các đơn vị ngữ liệu được trích xuất hay giản lược từ các pha trước được
liên kết lại thành đoạn theo đúng thứ tự trong văn bản gốc, không thêm bớt từ
nối và cũng không sắp xếp lại. Văn bản kết quả của phương pháp này có độ dễ
đọc và dễ hiểu kém, thậm chí lủng củng vì các đơn vị ngữ liệu có thể bị mập
mờ tham chiếu, không có từ nối hoặc thừa từ.
➢ Phương pháp hiển thị liên kết
Với phương pháp này, ta sẽ đưa thêm các thông tin bổ sung vào văn bản
tóm tắt. Hai phương pháp thường được áp dụng là sử dụng mẫu (template) và
ngữ liệu huấn luyện (corpus).
Các phương pháp hiển thị phân đoạn dễ cài đặt và dễ áp dụng được trong
thực tiễn hơn so với các phương pháp hiển thị liên kết vì không gặp phải những
khó khăn do trong thiết kế mẫu hoặc xây dựng kho ngữ liệu huấn luyện.
1.2. Các phương pháp đánh giá
Đánh giá một bản tóm tắt là một công việc khó bởi không tồn tại một bản
tóm tắt lý tưởng cho một (hoặc một tập) văn bản đưa ra. Hơn nữa, việc đánh
10
giá nội dung tóm tắt cũng rất khó khăn. Trường hợp kết quả là một câu trả lời
cho một câu hỏi, ta có thể xác định được câu trả lời đó đúng hay sai, nhưng
trong các trường hợp khác, thật khó trả lời liệu đầu ra là phải một kết quả đúng
hay không? Thực tế luôn có khả năng một hệ thống sinh ra một bản tóm tắt tốt
nhưng lại sai khác với bản tóm tắt do người thực hiện. Bên cạnh đó, khi việc
đánh giá được thực hiện bởi con người thì chi phí đánh giá sẽ rất cao. Mặt khác,
tóm tắt văn bản còn liên quan đến tỉ lệ nén văn bản, do đó, việc đánh giá bản
tóm tắt cần phải quan tâm đến vấn đề này, khi đó độ phức tạp và chi phí đánh
giá sẽ tăng cao.
Có nhiều kiểu đánh giá khác nhau tuỳ thuộc vào kiểu tóm tắt của hệ thống.
Có thể là đánh giá trong (intrinsic) – tập trung vào chất lượng bản tóm tắt và
đánh giá ngoài (extrinsic) – tập trung vào nhiệm vụ [14].
Các tiêu chí đánh giá:
- Độ mạch lạc (sự cố kết - coherence): đánh giá mức độ rõ ràng của văn
bản tóm tắt, tính súc tích, khả năng có thể đọc và hiểu được của bài viết…
- Độ hàm chứa thông tin (Informationess): tỉ lệ thông tin của văn bản gốc
trong văn bản tóm tắt.
- Độ liên quan (Relevance): xác định mức độ phù hợp của văn bản tóm tắt
với chủ đề cho trước (chủ đề có thể là một câu truy vấn).
- Độ dễ đọc hiểu (Reading Comprehence): một người được giao việc đọc
văn bản kết quả, sau đó trả lời các câu hỏi, hệ thống sẽ phải cho điểm và từ đó
đưa ra phần trăm những câu trả lời đúng.
1.2.1. Các phương pháp đánh giá trong
1.2.1.1. So sánh với văn bản tóm tắt khác
Ý tưởng cơ bản của phương pháp này là đem văn bản do hệ thống tóm tắt
so sánh với các bản tóm tắt khác (có thể do hệ thống tóm tắt khác thực hiện
hoặc do con người thực hiện). Thông thường là đem so sánh với văn bản tóm
11
tắt do con người thực hiện. Việc so sánh giữa các bản tóm tắt này có thể do con
người thực hiện hoặc có thể thực hiện tự động.
Khi so sánh, có thể sử dụng một số độ đo sau:
- Độ chính xác (Precision) và độ bao phủ (Recall). Tuy nhiên, 2 độ đo này
chưa đủ để phân biệt các bản tóm tắt, các bản tóm tắt khác nội dung nhưng vẫn
có cùng độ đo.
- Độ đo hạng câu (Sentence Rank): thay thế cho độ bao phủ, khi đó, một
bản tóm tắt được đặc trưng bởi hạng của các câu trong các bản tóm tắt thích
hợp. Hạng của các câu trong bản tóm tắt do hệ thống thực hiện và trong các bản
tóm tắt dùng để so sánh có thể tính bằng độ đo tương quan. Độ do này áp dụng
đối với hệ thống tóm tắt dạng trích xuất.
- Độ đo dựa trên nội dung (Content-Based): dựa trên sự tương tự về mặt
từ vựng, và có thể áp dụng đối với cả 2 dạng tóm tắt. Tuy nhiên, độ đo này hữu
dụng với các bản tóm tắt trích xuất, hoặc với các bản tóm tắt dạng abstract
nhưng có mức độ cắt-dán cao (tức là văn bản tóm tắt được tạo bởi nhiều từ,
cụm từ, câu nguyên dạng trong văn bản nguồn).
1.2.1.2. So sánh với văn bản nguồn
Với phương pháp này, ta đem so sánh văn bản tóm tắt với văn bản nguồn
để xác định mức độ hàm chứa thông tin của văn bản tóm tắt. Các độ đo dựa
trên nội dung như trên có thể sử dụng để đánh giá. đã đưa ra phương pháp sử
dụng thống kê để xác định mỗi thuật ngữ có phải là thuật ngữ trung tâm hay
không phải thuật ngữ trung tâm. Tiếp đó, phân loại vào các nhóm chính xác
(Correct), không chính xác (Incorrect) và thiếu (Missing) [14].
1.2.2. Các phương pháp đánh giá ngoài
Ý tưởng cơ bản của các phương pháp đánh giá ngoài là đánh giá tác dụng
của bản tóm tắt với các nhiệm vụ khác nhau.
12
- Đánh giá mức độ liên quan (relevance): ý tưởng của phương pháp này là
đưa ra một văn bản và một chủ đề, đánh giá xem mức độ liên quan của văn bản
với chủ đề đó.
- Đánh giá mức độ đọc hiểu: trước tiên, một người được đọc các văn bản
tóm tắt từ một hoặc nhiều văn bản, sau đó trả lời các câu hỏi kiểm tra. Hệ thống
tự động tính điểm các câu trả lời và đánh giá tỉ lệ trả lời đúng. Nếu bản tóm tắt
cho phép trả lời các câu hỏi giống như khi đọc toàn bộ văn bản nguồn thì bản
tóm tắt đó có khả năng cung cấp thông tin cao. Marcu [9] thực hiện đo mức độ
cung cấp thông tin dựa trên việc người ta có thể khôi phục lại các thông tin
quan trọng trong văn bản khi đọc bản tóm tắt của văn bản đó. Bằng thực
nghiệm, tác giả tiến hành dựng lại văn bản gốc dựa trên việc đọc văn bản tóm
tắt kết hợp phỏng đoán.
1.3. Tóm tắt văn bản tiếng Việt dựa vào trích xuất câu và một số vấn
đề liên quan
Bài toán tóm tắt văn bản tiếng Việt dự vào trích cuất câu có thể phát biểu
như sau: “Tạo một bản tóm tắt với theo tỷ lệ xác định từ văn bản gốc bằng cách
rút ra những câu quan trọng nhất. Ngôn ngữ trong văn bản gốc và văn bản tóm
tắt là tiếng Việt”.
Với những đặc thù riêng của ngôn ngữ, bài toán tóm tắt văn bản tiếng Việt
có những vấn đề phức tạp phải cần giải quyết như: cấu trúc ngữ pháp, ngữ
nghĩa, chính tả, bảng mã3,... [1], [2], [3], [6], [8]
1.3.1. Đặc điểm ngôn ngữ trong văn bản tiếng Việt
1.3.1.1. Đặc điểm ngôn ngữ
Tiếng Việt là ngôn ngữ thuộc loại hình đơn lập, không biến hình từ và âm
tiết [1], [2], [3], [6]. Đặc điểm này thể hiện rõ rệt ở tất cả các mặt ngữ âm, từ
vựng, ngữ pháp.
3 https://vi.wikipedia.org/wiki/Bộ_gõ_tiếng_Việt
13
Về đặc điểm từ vựng: Mỗi tiếng, nói chung, là một yếu tố có nghĩa. Tiếng
là đơn vị cơ sở của hệ thống các đơn vị có nghĩa của tiếng Việt. Từ tiếng, người
ta tạo ra các đơn vị từ vựng khác để định danh sự vật, hiện tượng..., chủ yếu
nhờ phương thức ghép và phương thức láy [1], [3], [6].
Theo cấu tạo, có thể phân loại từ trong tiếng Việt thành:
Từ đơn: là từ chỉ chứa một tiếng. Ví dụ: học, trường, sách, sẽ, đang,...
Từ ghép: là từ gồm 2 tiếng trở lên, như tàu xe, trường học, máy tính,...
Do đó, đối với văn bản tiếng Việt không thể phân biệt các từ bằng khoảng
trống như đối với văn bản tiếng Anh mà cần phải xử lý tách từ để xác định
chính xác các từ cấu tạo nên từng câu hay toàn văn bản.
Về đặc điểm ngữ pháp: Việc sắp xếp các từ theo một trật tự nhất định là
cách chủ yếu để biểu thị các quan hệ cú pháp. Các phương thức ngữ pháp bên
ngoài từ chủ yếu trong tiếng Việt là: trật tự từ, hư từ và ngữ điệu [2], [3], [6].
1.3.1.2. Đặc điểm chính tả
Đặc điểm chính tả tiếng Việt có ý nghĩa quan trọng tiền xử lý dữ liệu văn
bản. Một số đặc điểm chính tả tiếng Việt cần quan tâm như:
− Các tiếng đồng âm: như kĩ/kỹ, lí, lý,… thường bị sử dụng lẫn nhau như:
lý luận, lí luận, kĩ thuật, kỹ thuật,…
− Các từ địa phương: một số từ địa phương sử dụng thay cho các từ phổ
thông, chẳng hạn: cây kiểng/cây cảnh, đờn/đàn, đậu phộng/lạc,…
− Vị trí dấu thanh: theo quy định đánh dấu tiếng Việt, dấu được đặt trên
nguyên âm có ưu tiên cao nhất. Tuy nhiên, khi viết văn bản nhiều bộ gõ văn
bản không tuân thủ theo đúng nguyên tắc trên nên xảy ra hiện tượng dấu được
đặt ở các vị trí khác nhau, chẳng hạn: toán, tóan, thuý, thúy,…
− Cách viết hoa: theo quy định, chữ cái đầu câu và tên riêng phải viết hoa,
tuy nhiên vẫn tồn tại một số cách viết tuỳ tiện.
14
− Phiên âm tiếng nước ngoài: hiện nay, vẫn còn nhiều tranh cãi giữa việc
phiên âm tiếng nước ngoài thành tiếng Việt (Việt hoá), nên tồn tại nhiều cách
viết (giữ nguyên gốc tiếng nước ngoài, phiên âm ra tiếng Việt), ví dụ:
Singapore/Xin−ga−po.
− Từ gạch nối: do cách viết dấu gạch nối tuỳ tiện, không phân biệt được
giữa nối tên riêng hay chú thích.
− Kí tự ngắt câu: các kí tự đặc biệt như “.”, “;”, “!”, “?”, “…” ngăn cách
giữa các câu hoặc các vế câu trong câu ghép.
1.3.1.3. Bảng mã tiếng Việt trên máy tính
Hiện nay, việc đưa tiếng Việt vào máy tính không chỉ để soạn thảo văn
bản mà còn để xây dựng các phần mềm có giao diện tiếng Việt và cũng để xử
lý tiếng Việt. Tuy nhiên, hiện nay có nhiều cách mã hoá các kí tự tiếng Việt
khác nhau, dẫn tới có nhiều bảng mã khác nhau được sử dụng. Theo thống kê,
có tới khoảng 14 bảng mã tiếng Việt khác nhau được sử dụng4, do đó , việc
khai thác tài liệu cũng như xử lý dữ liệu rất phức tạp. Có thể kể đến một số
bảng mã dưới đây.
- Unicode: là bộ mã chuẩn quốc tế được thiết kế để dùng làm bộ mã duy
nhất cho tất cả các ngôn ngữ khác nhau trên thế giới, kể cả các ngôn ngữ sử
dụng ký tự tượng hình phức tạp như tiếng Trung, tiếng Thái... Vì điểm ưu việt
đó, Unicode đã và đang từng bước thay thế các bộ mã truyền thống, kể cả bộ
mã tiêu chuẩn ISO 8859 và hiện đang được hỗ trợ trên rất nhiều phần mềm
cũng như các trình ứng dụng.
VISCII: (viết tắt của VIetnamese Standard Code for Information
Interchange trong tiếng Anh) là một bảng mã do nhóm Viet-Std đề xướng vào
năm 1992 dùng để gõ tiếng Việt. Bảng mã này thay thế các ký tự ít được dùng,
hay các ký tự được dùng trong các ngôn ngữ khác, bằng những ký tự chữ Quốc
4 https://vi.wikipedia.org/wiki/Bộ_gõ_tiếng_Việt
15
ngữ có dấu. VISCII trước đây được dùng trong nhiều hệ điều hành như MS-
DOS, Windows, Unix, Mac OS,...
TCVN3: Bảng mã theo tiêu chuẩn (cũ) của Việt Nam. Các font chữ trong
bảng mã này có tên bắt đầu bằng .Vn và mỗi font có hai loại thường và hoa
(font chữ hoa kết thúc bằng H). Ví dụ: .VnTime, .VNSouthernH. Ngày nay
TCVN đã quy định sử dụng font Unicode trong soạn thảo văn bản.
VNI: Bảng mã do công ty VNI (Vietnam-International) sở hữu bản quyền.
Các font chữ trong bảng mã VNI có tên bắt đầu bằng VNI-, ví dụ như VNI-
Times.
Unicode, TCVN3, VNI là ba bảng mã thông dụng nhất, ngoài ra còn có
các bảng mã như BK HCM, Vietware, VIQR,...
Tóm tại, những đặc điểm trên của tiếng Việt khiến cho việc xác định từ,
cụm từ, câu [4], [5], [6] trên máy tính là vấn đề khó, cần có nhiều nghiên cứu
thêm. Do vậy, tiền xử lý văn bản (tách từ, tách đoạn, tách câu…) trở nên rất
phức tạp với việc xử lý các hư từ, phụ từ, từ láy…; hơn nữa, phương thức ngữ
pháp chủ yếu là trật tự từ nên nếu áp dụng phương pháp tính xác suất xuất hiện
của từ có thể không chính xác như mong đợi. Mặt khác, ranh giới xác định từ
không phải là khoảng trắng, khiến cho việc tách từ trở nên khó khăn, dẫn đến
khó khăn cho các giai đoạn tiếp theo như kiểm lỗi chính tả, gán nhãn từ loại,
thống kê tần suất từ… Vì vậy, các phương pháp xử lý ngôn ngữ đang áp dụng
cho tiếng Anh không thể áp dụng trực tiếp cho tiếng Việt mà cần có sự thay đổi
cho phù hợp.
1.3.2. Một số hướng tiếp cận bài toán tóm tắt văn bản tiếng Việt
Tại Việt Nam hiện nay, lĩnh vực xử lý ngôn ngữ tự nhiên đã có được những
kết quả tốt trong phân tách từ, phân lớp và phân nhóm văn bản. Tuy nhiên, bài
toán tóm tắt văn bản chưa có nhiều nghiên cứu và đa phần các công trình nghiên
cứu đều sử dụng hoặc cải tiến các phương pháp dựa trên thống kê, cũng có một
16
số nghiên cứu có dựa trên ngữ nghĩa để nâng cao độ chính xác. Có thể kể đến
một số công trình nghiên cứu như:
Đỗ Phúc, Hoàng Kiếm [4] đã sử dụng cây hậu tố để phát hiện các dãy từ
phổ biến trong các câu của văn bản, dùng từ điển đồng nghĩa và WordNet tiếng
Việt để giải quyết vấn đề nghĩa của từ, rồi dùng kĩ thuật gom cụm để gom các
câu trong văn bản (vector đặc trưng cho câu) và hình thành các vector đặc trưng
cụm, sau đó rút ra câu chứa nhiều thành phần của các vector đặc trưng cụm.
Vương Toàn [7] đã đề xuất quy trình tóm tắt văn bản khoa học. Theo đó,
đầu tiên cho máy đọc lướt văn bản và tìm xem có sẵn những đoạn văn mang
tính chất “tóm tắt” hay không; tiếp theo là định chủ đề, xác định 4-5 tiêu đề, đề
mục hoặc từ khoá để máy tự động chọn lưu tất cả những câu có các từ khoá đó.
Nguyễn Trọng Phúc, Lê Thanh Hương [5] lại sử dụng cấu trúc diễn ngôn
để tóm tắt văn bản. Theo đó, xây dựng cây cấu trúc diễn ngôn biểu diễn mỗi
quan hệ diễn ngôn giữa các đoạn văn bản (như các quan hệ nhân-quả, liệt kê,
diễn giải,…), rồi từ cây cấu trúc diễn ngôn này đánh giá được độ quan trọng
của các đoạn văn bản và tiến hành trích xuất tạo ra bản tóm tắt.
Nói chung, có hai hướng để tóm tắt văn bản tự động được các nhà nghiên
cứu tập trung quan tâm: tóm tắt tóm lược và tóm tắt trích xuất. Nghiên cứu về
các phương pháp tóm lược tự động là một lĩnh vực nghiên cứu ngày càng quan
trọng và được quan tâm tích cực, tuy nhiên do các khó khăn phức tạp về xử lý
ngôn ngữ tự nhiên nên ở hướng nghiên cứu này chưa có được nhiều kết quả
khả quan so với hướng nghiên cứu tóm tắt dựa vào trích xuất. Những ứng dụng
thực tế dựa vào tóm tắt trích xuất ngày càng trở nên quan trọng và đa dạng. Vì
vậy, những nghiên cứu về tóm tắt văn bản tự động hiện nay tập trung chủ yếu
ở các phương pháp tóm tắt trích xuất.
17
1.3.3. Mô hình tóm tắt văn bản tiếng Việt dựa vào trích xuất câu
Về cơ bản, mô hình tóm tắt văn bản tiếng Việt dựa vào trích xuất câu thể
hiện trong hình 1.2. Nhìn chung, ở mỗi giai đoạn trong quá trình thực hiện sẽ
có những xử lý thích hợp đối với văn bản tiếng Việt.
Hình 1.2. Mô hình chung cho tóm tắt văn bản tiếng Việt dựa vào trích xuất câu
1.3.3.1. Tiền xử lý
Giai đoạn này nhằm chuẩn hoá văn bản về bảng mã, các lỗi chính tả, các
lỗi về dấu câu, v.v… sau đó, thực hiện tách từ, tách câu.
1.3.3.2. Biến đổi
Trong giai đoạn này có thể sử dụng các các phương pháp biến đổi văn bản
theo mô hình vector, mô hình đồ thị, mô hình cây. Khi đó mỗi câu trong văn
bản có thể được biểu diễn như là một vector, một đỉnh của đồ thị, hay một nút
trên cây (các phần tử trong mô hình biểu diễn).
Nhằm tăng cường tính chính xác trong việc xác định các câu quan trọng,
các phần tử trong mô hình biểu diễn có thể bổ sung thêm trọng số thông qua
việc xác định độ tương đồng ngữ nghĩa của từ, mức độ mạnh của các cấu trúc
của câu, hoặc một số đặc tính khác.
18
Ngoài ra đề giảm bớt sự phức tạp của mô hình, những từ, cụm từ ít giá trị
trong việc xác định thông tin như từ dừng, từ phổ biến cũng sẽ được loại bỏ ở
giai đoạn này.
1.3.3.3. Sinh văn bản
Căn cứ trên mô hình biến đổi văn bản của giai đoạn trước, các phương
pháp trích chọn câu quan trọng có thể được thực hiện qua các giải thuật như
gom cụm, duyệt đồ thị, duyệt cây,... quen thuộc.
1.4. Tổng kết chương
Chương này, luận văn đã trình bày một số vấn đề cơ bản để giải quyết bài
toán tóm tắt văn bản nói chung, tóm tắt văn bản tiếng Việt nói riêng; giới thiệu
mô hình chung cho tóm tắt văn bản tiếng Việt dựa vào trích xuất câu. Chương
tiếp theo, luận văn sẽ tập trung trình bày chi tiết phương pháp xác định độ tương
đồng ngữ nghĩa giữa hai câu dùng trong mô hình tóm tắt văn bản tiếng Việt.
19
Chương 2
PHƯƠNG PHÁP TÓM TẮT VĂN BẢN
DỰA TRÊN ĐỘ TƯƠNG ĐỒNG CÂU
2.1. Một số khái niệm và phương pháp tính độ tương đồng câu
2.1.1. Độ tương đồng
Độ đo (measure) là một khái niệm quan trọng trong toán học. Thông thường,
một độ đo nó là một hàm số cho tương ứng với một "chiều dài", một "thể tích"
hoặc một "xác suất" của một phần nào đó trong một tập hợp cho sẵn.
Ví dụ: độ đo định nghĩa bởi hàm µ(S) = số phần tử của S là độ đo dùng
để xác định số phần tử của một tập hợp.
Sự tương đồng (similarities) có thể xem như là một độ đo phản ánh mức
độ giống nhau giữa hai đối tượng hoặc hai đặc trưng.
Ví dụ: Trong hình học, các hình được coi là giống nhau nếu có cùng hình
dạng (đồng dạng) khi đó các hình vuông đều giống nhau; các hình tròn đều
giống nhau;...
Trong đời thường, sự giống nhau có thể chia ra thành các mức độ như khá
giống, rất giống,... Chẳng hạn người ta có thể nói: Cậu bé giống bố như tạc.
Trong toán học, độ tương đồng thường ở trong phạm vi từ -1 đến 1 hoặc 0 đến
1. Chẳng hạn sự đồng dạng của các hình đa giác có thể được đo bởi tỷ lệ giữa
các cặp cạnh tương ứng và rõ ràng hai hình đa giác được gọi là bằng nhau nếu
tỷ lệ giữa các cặp cạnh tương ứng bằng 1.
Như vậy, một độ đo tương đồng có thể coi là một loại hàm tính điểm
(scoring function) [8], [14], [15].
20
2.1.2. Độ tương đồng ngữ nghĩa và phương pháp trích xuất câu dựa
trên độ tương đồng ngữ nghĩa câu.
Độ tương đồng ngữ nghĩa là một độ đo thể hiện tỷ lệ dựa trên sự giống
nhau về nội dung ý nghĩa của các từ, các câu, các tài liệu.
Giả sử văn bản D được tạo thành bởi tập các câu {S1, ..., Sn} và tập các từ
{w1, w2, ..., wl}. Nếu hàm SimS là độ đo sự tương đồng ngữ nghĩa câu và hàm
Simw là độ đo tương đồng ngữ nghĩa của từ thì SimS(Si, Sj) là một giá trị phản
ánh sự đồng ngữ nghĩa của 2 câu Si, Sj và hàm Simw(wt, wk) là một giá trị phản
ánh sự tương đồng ngữ nghĩa của 2 từ wt, wk.
Thông thường SimS(Si, Sj) nằm trong đoạn [0, 1] hoặc [-1, 1]. Trên thực tế
khó có thể lấy giá trị chính xác tuyệt đối để đo sự đồng nghĩa của hai câu vì vậy
người ta thường chọn một giá trị cụ thể để xác định sự tương đồng ngữ nghĩa
câu. Nếu γ là ngưỡng xác định độ tương đồng và khi SimS(Si, Sj) >= γ thì có thể
coi Si và Sj là tương đồng ngữ nghĩa. γ thường được chọn thông qua thực nghiệm
[6], [8].
Gọi W(Si) là hàm xác định độ quan trọng của câu Si đối với văn bản D thì
W = W(Si) là một giá trị phản ánh mức độ quan trọng của câu Si đối với văn bản
D, khi đó giá trị W có thể coi là trọng số của câu Si.
Nếu xem độ tương đồng nghĩa giữa một câu với toàn văn bản là một tiêu
chí xác định độ quan trọng của câu thì một câu sẽ được coi là có độ quan trọng
cao (trọng số cao) nếu nó có độ tương đồng ngữ nghĩa lớn với toàn văn bản.
Khi đó ta có thể tính trọng số câu Si trong văn bản D theo công thức sau:
(2.1)
Quá trình trích xuất câu từ văn bản D để tạo bản tóm tắt có tỷ lệ nén α (α
tính theo công thức 1.1) có thể minh họa như sau:
Bước 1: Xác định mức độ quan trọng của các câu
Tính
21
Bước 2: Rút các câu quan trọng sinh bản tóm tắt
m = [n.α] // m: số câu trong bản tóm tắt; [n.α]: phần nguyên của n.α
là thuật toán hoặc hàm trích xuất câu từ tập các câu
dựa trên tập giá trị là các câu có .
trọng số cao nhất và không đồng ngữ nghĩa với nhau.
Dưới đây là một số phương pháp xây dựng hàm SimS(Si, Sj) tính độ tương
đồng ngữ nghĩa giữa hai câu.
2.1.3. Tính độ tương đồng theo độ đo Cosine
Trong phương pháp này, các câu sẽ được biểu diễn theo một mô hình
không gian vector. Mỗi thành phần trong vector chỉ đến một từ tương ứng trong
danh sách mục từ chính [19], [24]. Danh sách mục từ chính thu được từ quá
trình tiền xử lý văn bản đầu vào, các bước tiền xử lý gồm: tách câu, tách từ,
loại bỏ những câu, từ, ký tự không hợp lệ. Không gian vector có kích thước
bằng số mục từ trong danh sách mục từ chính.
Với không gian biểu diễn tài liệu được chọn là không gian vector xây dựng
dựa trên tần suất từ. Vector biểu diễn hai câu lần lượt có dạng:
với là tần suất của từ thứ k trong câu i
với là tần suất của từ thứ k trong câu j
Độ tương đồng giữa chúng được tính theo công thức:
(2.2)
SimF(Si, Sj) trong trường hợp này gọi là độ đo Cosine. Và có thể thấy hai
câu “đồng nghĩa” với nhau khi hai vector trùng nhau hay .
22
Ví dụ 2.1.3: xét văng bản D có hai câu S1 và S2 dưới đây
S1 = “Lươn ngắn thì chê trạch dài”
S2 = “Thờn bơn méo miệng chê trai lệch mồm”
Có thể vector hóa văn bản D và hai câu S1, S2 theo tần suất từ như sau
lươn ngắn thì chê trạch dài méo miệng trai lệch mồm
1 1 0 1 1 0 1 1 0 2 1 1 1 1 0 1 1 0 1 0 1 1 0 1 1 0 1 1 0 1 1 0 1 thờn bơn 1 0 1 D S1 S2
Khi đó
Ví dụ trên cho chúng ta thấy, vector biểu diễn cho các câu chưa xét đến
các quan hệ ngữ nghĩa giữa các mục từ, hoặc quan hệ ngữ nghĩa giữa các câu
nên kết quả đo độ tương đồng giữa các câu chưa tốt.
Như vậy, cần phải bổ sung thêm giá trị ngữ nghĩa khi tính độ tương tương
đồng giữa hai câu để tăng tính chính xác.
2.1.4. Phương pháp tính độ tương đồng câu dựa vào chủ đề ẩn
Ví dụ 2.1.4: Trở lại ví dụ 2.1.3, theo trực giác có thể thấy các từ trong văn
bản D có thể thuộc về các chủ đề như sau:
Chủ đề
CĐ3 Chê bai chê nói xấu dè bỉu CĐ4 Từ nối thì và cũng CĐ5 Miệng mồm miệng mỏ
CĐ1 Động vật thủy sinh lươn trạch thờn bơn trai CĐ2 Hình dạng ngắn dài méo lệch
Như vậy, có thể diễn đạt lại hai câu S1, S2 theo chủ đề như sau:
S1 = “CĐ1 CĐ2 CĐ4 CĐ3 CĐ1 CĐ2”
S2 = “CĐ1 CĐ2 CĐ5 CĐ3 CĐ1 CĐ2 CĐ5”
23
Vector hóa hai câu theo tần suất chủ đề ta có
S1 S2 CĐ1 2 2 CĐ2 2 2 CĐ3 1 1 CĐ4 1 0 CĐ5 0 2
Khi đó
Rõ ràng đây là kết quả tốt hơn so với kết quả được tính trong ví dụ 2.1.3.
Các chủ đề trong ví dụ 2.1.4 được gọi là các chủ đề ẩn (Hidden Topic).
Dễ thấy rằng hai câu càng có nhiều chủ đề ẩn chung và tần suất xuất hiện của
các chủ đề chung càng lớn thì chúng càng có độ tương đồng cao. Tuy nhiên,
việc xây dựng một tập hữu hạn các chủ đề bao phủ miền ứng dụng là một việc
làm khó khăn tương tự như việc xây dựng một kho ngữ liệu ngôn ngữ học đầy
đủ. Mô hình phân tích chủ đề ẩn LDA (Latent Dirichlet Allocation) giải quyết
khó khăn trên bằng cách giả định mỗi văn bản là sự pha trộn tập gồm K chủ đề
cho trước (K nguyên dương). Trong đó, mỗi chủ đề là một tập hợp của các từ
và mỗi có một tần suất xuất hiện trong một chủ đề.
Ý tưởng cơ bản của mô hình LDA là sử dụng một mô hình xác định phân
bố xác suất các chủ đề ẩn cho văn bản để từ đó xác định ngữ nghĩa một cách
chính xác hơn. Về lý thuyết, mô hình suy luận (Inference) LDA tốt được ước
lượng (Estimat) qua tập dữ liệu lớn và bao trùm miền ứng dụng được gọi là tập
dữ liệu tổng thể (Universal dataset) [10], [17]. Về bản chất thì quá trình ước
lượng có thể coi là quá trình học không giám sát.
Việc sử dụng mô hình LDA để suy luận chủ đề ẩn cho các câu hay cho
toàn văn bản cho phép xác định vector đặc trưng của chúng qua phân bố xác
suất của các chủ đề cụ thể đã được xác định ở quá trình ước lượng.
24
Giả sử chúng ta có mô hình suy luận chủ đề ẩn đã được ước lượng gồm K
chủ đề. Với đầu vào là một văn bản đơn, sau các bước tiền xử lý chúng ta thu
được một danh sách các câu (Hình 2.1).
Hình 2.1. Mô hình tính độ tương đồng câu với chủ đề ẩn
Suy luận (Inference) chủ đề cho các câu đã qua tiền xử lý, kết quả thu
được một danh sách các câu được vector hóa theo chủ đề ẩn có dạng như sau:
(2.3)
Ở đây, ; là phân bố xác suất (hay khả năng xuất hiện) của chủ
đề thứ k trong K chủ đề đã được phân tích. Sử dụng độ đo Cosine để tính độ
tương đồng giữa hai câu trong trường hợp này ta có:
(2.4)
25
Như vậy, có thể thấy vector của câu Si trong trường hợp này tương tự với
các vector chủ đề ẩn đã minh họa ở ví dụ 2.1.4. Chỉ có điều là các thành phần
của vector trong tường hợp này là phân bố xác suất của các chủ đề thay vì là
tần suất xuất hiện của chúng. Với việc sử dụng mô hình LDA chúng ta có thể
tin tưởng rằng các vector dạng 2.3 sẽ tiệm cận gần với vector xây dựng trong
ví dụ 2.1.4 khi có một mô hình suy luận chủ đề ẩn đủ mạnh. Phối hợp hai công
thức 2.2 và 2.4 chúng ta có một cách tính độ tương đồng câu theo tần suất từ
có bổ sung ngữ nghĩa qua việc xác định sự phân bố của các chủ đề ẩn:
(2.5)
Trong công thức trên, là hằng số trộn sẽ được chọn qua quá trình thực
nghiệm, thường . quyết định việc đóng góp giữa hai cách tính độ
tương đồng câu. Nếu , độ tương đồng giữa hai câu không có chủ đề ẩn.
Nếu , độ tương đồng giữa hai câu chỉ tính với chủ đề ẩn.
2.1.5. Phương pháp tính độ tương đồng câu dựa vào mạng Wikipedia
Wikipedia là một bách khoa toàn thư nội dung mở bằng nhiều ngôn ngữ
trên Internet. Wikipedia được viết và xây dựng do rất nhiều người dùng cùng
cộng tác với nhau. Kể từ khi được tạo ra vào năm năm 2001, Wikipedia đã phát
triển nhanh chóng thanh một trong nững trang web tham khảo lớn nhấn. Có
khoảng 71.000 người làm việc tích cực trên hơn 47.000.000 bài viết bằng 229
ngôn ngữ. Tính đến nay, có hơn 5.615.641 bài báo bằng tiếng Anh. Mỗi ngày
có hàng chục nghìn người từ khắp nơi trên thế giới cùng nhau thực hiện hàng
chục nghìn chỉnh sửa và tạo ra hàng nghìn bài báo mới tăng cường kiến thức
trên Wikipedia5.
Các trang thông tin của Wikipedia được lưu trữ trong một cấu trúc mạng.
Các từ (hoặc các khái niệm) liên quan với nhau về mặt ngữ nghĩa và các mục
5 https://en.wikipedia.org/wiki/Wikipedia:About
26
chủ đề (category) được tổ chức trong một cấu trúc phân cấp (taxonomy) được
gọi là đồ thị chủ đề Wikipedia (Wikipedia Category Graph - WCG) [21].
Đồ thị bài viết (Article graph): Giữa các bài viết của Wikipedia có các siêu
liên kết với nhau, các siêu liên kết này được tạo ra do quá trình chỉnh sửa bài
viết của người sử dụng. Nếu ta coi mỗi bài viết như là một nút và các liên kết
từ một bài viết đến các bài viết khác là các cạnh có hướng chạy từ một nút đến
các nút khác thì ta sẽ có một đồ thị có hướng liên kết các bài viết trên Wikipedia
(Xem minh họa phía bên phải của hình 2.2).
Đồ thị chủ đề (Category graph): Các chủ đề của Wikipedia được tổ chức
giống như cấu trúc của một taxonomy (phía bên trái của hình 2.2). Mỗi một chủ
đề có thể có một số lượng tùy ý các chủ đề con, mỗi một chủ đề con này thường
được xác định bằng mối quan hệ thượng hạ vị (Hyponymy) hay mối quan hệ
bộ phận tổng thể (Meronymy).
Hình 2.2. Mối quan hệ giữa đồ thị bài viết và đồ thị chủ đề Wikipedia
Ví dụ: Chủ đề “máy tính” có các chủ đề con là “số”, “logic”, “khoa học
máy tính”, “công nghệ thông tin”.
27
Do đó, đồ thị chủ đề (WCG) giống như là một mạng ngữ nghĩa giữa các
từ nên có thể xây dựng các độ đo sự đồng nghĩa giữa các từ tương tự như
Wordnet. Phương pháp tính độ tương đồng giữa các từ trong mạng ngữ nghĩa
Wikipedia tập trung vào việc áp dụng và cải tiến một số độ đo phổ biến về tính
độ tương đồng từ trên tập ngữ liệu Wordnet cho việc tính độ tương đồng giữa
các từ trên mạng ngữ nghĩa Wikipedia [18], [20], [21], [22],…
Do các giá trị của các độ đo tương đồng giữa các từ (hoặc các khái niệm) trên
Wikipedia đều không bị ràng buộc trong đoạn [0, 1], nên vào năm 2006, Li và
cộng sự đã đưa ra hai công thức cải tiến việc đo độ tương đồng từ mà không làm
mất tính đơn điệu [24].
Đối với độ đo PL (độ đo Path Length), f là một hàm đơn điệu giảm, nên:
(2.6)
l là hàm xác định khoảng cách ngắn nhất giữa hai từ trên đồ thị.
Đối với các độ đo khác, f là một hàm đơn điệu tăng, vì vậy:
(2.7)
h là hàm xác định độ đo của hai từ trên đồ thị.
Trong hai hàm số trên, α và β là hai tham số được chọn là α = 0.2 và β =
0.45. Sau khi tính được độ tương tự từ, ta đưa ra được vector ngữ nghĩa cho
mỗi câu [24]. Sự giống nhau về ngữ nghĩa giữa 2 câu được đo bởi độ đo Cosine:
(2.8)
Trong đó là những thành phần của các vector . Mỗi thành phần
được tính theo một trong hai
28
2.2. Mô hình tóm tắt văn bản tiếng Việt dựa trên trích xuất câu quan
trọng theo phương pháp tính độ tương đồng câu
Những nghiên cứu trên đây cho thấy muốn có một độ đo tương đồng ngữ
nghĩa tốt thì cần phải có một ngữ liệu ngôn ngữ học thể hiện được mối quan hệ
ngữ nghĩa giữa các từ, các khái niệm như Wordnet6 hoặc Brown Corpus7 hay
Wikipedia tiếng Đức. Ở Việt Nam những kho ngữ liệu như vậy chưa được xây
dựng hoàn chỉnh và cũng chưa có khảo sát chính thức cho Wikipedia tiếng Việt.
Vì vậy, học viên đã áp dụng kết quả nghiên cứu được trình bày tại mục 2.1.3,
2.1.4 để xây dựng mô hình tóm tắt văn bản tiếng Việt.
Dưới đây là mô hình tóm tắt văn bản tiếng Việt dựa vào trích xuất câu sử
dụng công thức (2.5) để tính độ tương đồng và trọng số câu.
Hình 2.3. Mô hình tóm tắt văn bản tiếng Việt
6 https://en.wikipedia.org/wiki/WordNet 7 https://en.wikipedia.org/wiki/Brown_Corpus
29
Mô hình gồm ba giai đoạn chính: tiền xử lý, tạo danh sách câu khả dụng
(xem 2.2.2) và sinh văn bản tóm tắt. Đầu vào là văn bản tiếng Việt mã hóa theo
bảng mã Unicode UTF-8. Đầu ra là bản tóm tắt theo tỷ lệ nén xác định.
2.2.1. Giai đoạn tiền xử lý
Tách từ, tách câu
Giai đoạn này thực hiện tách từ, tách câu theo ngữ pháp tiếng Việt. Sau
khi thực hiện các câu được phân biệt với nhau bởi dấu “.”; các từ phân cách
nhau bởi một ký tự trắng, các từ ghép có các từ đơn nối với nhau bởi dấu gạch
dưới (Hình 2.4).
Hình 2.4. Các câu sau khi tách trong cửa sổ nhỏ góc dưới bên trái
Module Tách từ, tách câu được xây dựng câu dựa trên mã nguồn mở
vnTokenizer của Lê Hồng Phương, Khoa Toán-Cơ-Tin học, Trường Đại học
Khoa học Tự nhiên, ĐHQG Hà Nội, Việt Nam.
Chuẩn hóa văn bản
Văn bản đưa vào xử lý được chuẩn hóa theo bảng mã Unicode UTF-8.
Học viên xây dựng module Chuẩn hóa văn bản để loại bỏ các từ dừng, ký hiệu
30
lạ, chuẩn hóa việc bỏ dấu, chuẩn hóa ký tự... nhằm giảm thiểu kích thước vector
đại diện câu trong giai đoạn sau (Hình 2.5).Ngoài ra, chương trình tóm tắt văn
bản thực nghiệm của luận văn còn có các module cho phép xác định ký tự vô
ích, module xác định từ dừng (Stop Word8) tự động và bằng tay cho phép xây
dựng danh mục ký tự vô ích, danh mục từ dừng một cách linh hoạt (Hình 2.6).
Hình 2.5. Văn bản sau khi chuẩn hóa
Hình 2.6. Xác định từ dừng và ký tự vô ích
8 https://en.wikipedia.org/wiki/Stop_words
31
Quá trình vector hóa văn bản và các câu theo tần suất từ và theo chủ đề ẩn
thực hiện như sau:
Input: D - văn bản gốc đã được tách từ, tách câu và chuẩn hóa
Output: vd, vsi; i = 1, 2, ..., m - Danh sách vector đại diện cho văn bản và
các câu theo tần suất từ
Phương pháp thực hiện:
// xác định số chiều (kích thước) của vector đại diện cho văn bản và các câu
// vl - danh sách các từ để tạo nên văn bản D
Lặp với i = 1 đến n thực hiện // n - tổng số từ trong văn bản D
Nếu thì add(vl, wi) // thêm từ wi vào vl
// vector hóa văn bản D theo tần suất từ
Khởi tạo vd // vd - danh sách có số phần tử bằng số phần tử của vl và
// mỗi phần tử có giá trị bằng 0
Lặp với i = 1 đến n thực hiện // n - tổng số từ trong văn bản D
j = post(vl, wi) // xác định vị trí từ wi trong vl; i = 1, 2, ..., n
dec(vd, j) // tăng vị trí thứ j của danh sách vd lên 1
// vector hóa các câu của văn bản D theo tần suất từ
Lặp với i = 1 đến m thực hiện // m - số câu của văn bản D
Khởi tạo vsi // vsi - danh sách có số phần tử bằng số phần tử của
// vl và mỗi phần tử có giá trị bằng 0; i = 1, 2, ..., m
Lặp với t = 1 đến s thực hiện // s - tổng số ký tự trong câu si
k = post(vl, wt) // xác định vị trí từ wt trong vl; t = 1, ..., n
dec(vsi, k) // tăng vị trí thứ k của danh sách vsi lên 1
Sau quá trình vector hóa như trên chúng ta thu được một danh sách vector
đại diện cho toàn văn bản và các câu theo tần suất từ (xem ví dụ 2.1.3).
32
Như đã phân tích tại mục 2.1.4, chúng ta tiếp tục vector hóa văn bản và
các câu theo phân tích chủ đề ẩn LDA qua công cụ JGibbsLDA9 của Phan Xuân
Hiếu, Graduate School of Information Sciences, Tohoku University và Nguyễn
Cẩm Tú, Đại học Công nghệ, Đại học Quốc gia Hà Nội. Kết quả thu được một
danh sách vector đại diện cho toàn văn bản và các câu theo chủ đề ẩn.
2.2.2. Giai tạo danh sách câu khả dụng
Ví dụ 2.2.2: Xét văn bản D như sau
S1 = “Trong đầm gì đẹp bằng sen”
S2 = “Lá xanh bông trắng lại chen nhụy vàng”
S3 = “Nhụy vàng bông trắng lá xanh”
S4 = “Gần bùn mà chẳng hôi tanh mùi bùn”
Trực quan có thể thấy hai câu S1 và S2 có độ tương đồng ngữ nghĩa rất cao,
do vậy, để việc tóm tắt văn bản đạt hiệu quả cao nhất thì cần phải loại những
câu đồng ngữ nghĩa ra khỏi danh sách các câu cần dùng để tóm tắt. Danh sách
các câu dùng để tạo bản tóm tắt theo ý nghĩa như vậy gọi là danh sách câu khả
dụng. Như vậy có thể hiểu:
Danh sách câu khả dụng là danh sách chứa các câu của văn bản gốc
không có sự tương đồng ngữ nghĩa (từng đôi một).
Quá trình tạo danh sách câu khả dụng
Giả sử văn bản gốc D có danh sách các câu là
Chi tiết quá trình tạo danh sách câu khả dụng như sau:
Input: S1, S2, ..., Sn - Các câu của văn bản D
VFD - Vector đại diện của văn bản theo tần suất từ
VFS1, VFS2, ..., VFSn - Vector đại diện các câu theo tần suất từ
VTD - Vector đại diện của văn bản theo chủ đề ẩn
9 http://jgibblda.sourceforge.net/
33
VTS1, VTS2, ..., VTSn - Vector đại diện các câu theo chủ đề ẩn
Output: StCoAvaiList - Danh sách câu khả dụng
Phương pháp thực hiện:
Lặp với i = 1 đến n thực hiện
Add(StCoAvaiList, Si) // thêm câu Si vào StCoAvaiList
Lặp với i = 1 đến n và thực hiện
Lặp với j = i + 1 đến n và thực hiện
Nếu thì Remove(Si, Sj)
// - tính theo công thức 2.5
// - ngưỡng tương đồng (chọn qua thực nghiệm);
// Remove(Si, Sj) - loại câu có trọng số thấp hơn ra
// khỏi StCoAvaiList
Dưới đây là kết quả thực nghiệm tạo danh sách câu khả dụng của văn bản
D trong ví dụ 2.2.2 theo phương pháp trên:
Với hằng số trộn và ngưỡng tương đồng
Trọng số các câu: ; ; ;
StCoAvaiList = {S1, S2, S3, S4}
Quá trình lặp tạo danh sách câu khả dụng như sau:
0,24878652865881926 Sim(S1, S2)
0,2750000000000004 Sim(S1, S3)
0,2630142022557633 Sim(S1, S4)
Sim(S2, S3) 0,8581649733015537 => S2 tương đồng ngữ nghĩa với S3
Remove(S2, S3) => StCoAvaiList = {S1, S2, S4}
0.2724075666220406 Sim(S3, S4)
Kết quả: StCoAvaiList = {S1, S2, S4}
34
Trong luận văn, trọng số câu là độ tương đồng ngữ nghĩa của câu với toàn
văn bản hay nói cách khác trọng số câu là mức độ hàm chứa nội dung văn bản
của câu. Do đó, trọng số của câu tính được tính theo công thức (2.5).
2.2.3. Giai đoạn sinh văn bản tóm tắt
Dựa trên danh sách câu khả dụng, thực hiện sắp xếp các câu theo độ quan
trọng (trọng số câu) từ lớn đến nhỏ rồi trích xuất lấy đủ số lượng câu để tạo văn
bản tóm tắt theo tỷ lệ nén xác định.
Ví dụ 2.2.3: Thực hiện tóm tắt văn bản ở ví dụ 2.2.2 theo tỷ lệ nén 50%
Sau khi tạo danh sách câu khả dụng như trong ví dụ 2.2.2, thực hiện sắp
xếp lại danh sách câu khả dụng theo trọng số giảm dần chúng ta có:
StCoAvaiList = {S2, S4, S1}
Bản tóm tắt theo tỷ lệ nén 50% sẽ có 2 câu:
S2 = “Lá xanh bông trắng lại chen nhụy vàng”
S4 = “Gần bùn mà chẳng hôi tanh mùi bùn”
Kết quả tóm tắt không thông qua danh sách câu khả dụng sẽ là:
S2 = “Lá xanh bông trắng lại chen nhụy vàng”
S3 = “Nhụy vàng bông trắng lá xanh”
Dễ thấy đây là kết quả không tốt bằng tóm tắt qua danh sách câu khả dụng.
2.3. Tổng kết chương
Chương này đã trình bày cụ thể khái niệm độ tương đồng ngữ nghĩa;
phương pháp xác định độ tương đồng ngữ nghĩa dựa trên suy luận chủ đề ẩn
LDA và phương pháp xác định độ tương đồng ngữ nghĩa dựa vào mạng
Wikipedia. Với lựa chọn xây dựng mô hình tóm tắt văn bản dựa vào trích xuất
câu theo suy luận chủ đề ẩn, luận văn đã trình bày chi tiết về mô hình tóm tắt
văn bản được cài đặt trên máy tính.
Chương tiếp theo, luận văn sẽ trình bày các thực nghiệm để chứng minh
tính khả thi và triển vọng của mô hình khi áp dụng vào thực tế.
35
Chương 3
THỰC NGHIỆM MÔ HÌNH TÓM TẮT VĂN BẢN TIẾNG VIỆT
3.1. Môi trường thực nghiệm
Máy tính có cấu hình:
Processor: Intel(R) Core(TM) i5-5200U CPU@ 2.20 GHz 2.20 GHz
RAM: 4,00 GB
Hệ điều hành: Windows 10 Pro @ 2016 Microsoft Corporation
Phần mềm lập trình: NetBeans IDE 8.1
Các công cụ phần mềm mã nguồn mở:
- vnTokenizer10 tách từ, tách câu trong văn bản tiếng Việt mã hóa bằng
bảng mã Unicode UTF-8
- JGibbsLDA xây dựng mô hình và suy luận chủ đề ẩn
Công cụ thực nghiệm: Chương trình tóm tắt văn bản do học viên viết.
3.2. Chương trình tóm tắt văn bản
Chương trình tóm tắt văn bản được viết bằng NetBeans IDE 8.1 có các
chức năng cơ bản cho soạn thảo, xây dựng mô hình suy lận chủ đề ẩn và tóm
tắt văn bản. Với giao diện đồ họa và mô tả chức năng dạng biểu tượng kết hợp
chú thích tiếng Việt nên chương trình rất dễ sử dụng. Dưới đây là các nhóm
chức năng chính của chương trình.
Nhóm các chức năng xử lý tệp thực hiện việc
chọn cơ sở dữ liệu tổng thể, thêm tệp dữ liệu (tệp văn bản đang mở) vào cơ sở
dữ liệu tổng thể, mở tệp văn bản, tạo mới tệp văn bản, ghi tệp đang mở, xóa tệp
và in tệp đang mở.
10 http://mim.hus.vnu.edu.vn/dsl/tools/tokenizer
36
Nhóm các chức năng soạn thảo
thực hiện các chức năng soạn thảo cơ bản: đánh dấu, lựa chọn vùng văn bản,
sao chép, cắt, dán, undo, redo, chọn font, chọn cỡ chữ, tìm kiếm chuỗi ký tự,...
Nhóm các chức năng xử lý dữ liệu thực hiện tách từ - tách câu, chuẩn
hóa văn bản, tóm tắt văn bản, xây dựng chủ đề ẩn , hiển thị danh sách câu -
trọng số, hiển thị ma trận dộ tương đồng câu,...
Chức năng đặt thông số dùng thay đổi các thông số của chương trình.
Giao diện của chương trình gồm thanh công cụ cung cấp các chức năng
phục vụ cho tóm tắt văn bản; Panel chứa các cửa sổ hiển thị văn bản gốc, kết
quả tách từ - tách câu và kết quả tóm tắt; Panel chứa các cửa sổ thể hiện kết quả
xử lý dữ liệu. Các cửa sổ trong mỗi Panel có thể thay đổi kích thước khá linh
hoạt giúp mở rộng diện tích quan sát kết quả.
Hình 3.1. Giao diện chương trình
37
3.3. Tiến hành thực nghiệm
3.3.1. Cơ sở dữ liệu tổng thể
Cơ sở dữ liệu tổng thể gồm 150 bài báo về lĩnh vực giáo dục trên các trang
vietnamnet.vn/vn, moet.gov.vn và tệp ngữ liệu VNESEcorpus2.txt11 chứa
khoảng 650.000 câu trích xuất từ khoảng 10.000 bài báo trên vietnamnet.vn,
dantri.com.vn, nhanhdan.com.vn...
3.3.2. Mô hình suy luận chủ đề ẩn
Sử dụng các chức năng “Tách từ - Tách câu”, “Chuẩn hóa văn bản”, “Xây
dựng chủ đề ẩn” của chương trình xử lý cơ sở dữ liệu tổng thể trong khoảng 22
giờ thu được mô hình suy luận chủ đề ẩn với 200 chủ đề gồm các tệp:
- wordmap.map: bản đồ từ gồm 113.865 mục từ.
- model-final.others: chứa các tham số sử dụng để suy luận theo LDA
- model-final.phi: chứa phân phối xác suất từ - chủ đề
- model-final.theta: chứa phân phối xác suất chủ đề - câu (hoặc văn bản)
- model-final.tassign: chứa các bài tập chủ đề (topic assignments) cho
những từ trong cơ sở dữ liệu huấn luyện
- model-final.twords: chứa phân phối xác suất của những từ có nhiều khả
năng xuất hiện trong từng chủ đề.
Hình 3.2 cho thấy các từ đặc trưng cho từng lĩnh vực có xu hướng tập
trung nhiều trong một số chủ đề. Vì vậy, sau quá trình suy luận chủ đề ẩn cho
từng câu, nếu hai câu chứa càng nhiều từ có xác suất xuất hiện cao trong cùng
một chủ đề thì càng có nhiều khả năng chủ đề đó sẽ cùng xuất hiện ở cả hai
câu. Nếu hai câu càng có nhiều chủ đề chung thì chúng càng có độ tương đồng
ngữ nghĩa cao.
Quá trình xử lý còn thu được tệp ký tự vô ích uselessChars.lst gồm 26 ký
tự và tệp từ dừng stopWords.lst gồm 1933 từ dùng để chuẩn hóa văn bản.
11 http://viet.jnlp.org/download-du-lieu-tu-vung-corpus
38
Hình 3.2. Các từ đặc trưng của lĩnh vực giáo dục có xác suất xuất hiện
cao ở chủ đề 83, 116, 136 trong mô hình suy luận chủ đề ẩn
3.3.3. Dữ liệu thực nghiệm
Dữ liệu thực nghiệm gồm 30 bài báo lấy trên các trang web vietnamnet.vn,
moet.gov.vn, nhandan.com.vn, vnexpress.net, tuoitre.vn chia thành 6 lĩnh vực là
giáo dục, khoa học, kinh doanh, thể thao, pháp luật, du lịch; mỗi lĩnh vực 5 bài.
3.3.4. Đánh giá độ chính xác của mô hình tóm tắt văn bản
3.3.4.1. Phương pháp đánh giá
So sánh kết quả tóm tắt của chương trình tóm tắt văn bản bằng phương
pháp tổ hợp - sử dụng công thức (2.5) và bằng phương pháp tần số từ - sử dụng
công thức (2.2) với kết quả tóm tắt của Microsoft Word 2003 (gọi chung là kết
quả tóm tắt do máy thực hiện) theo kết quả tóm tắt của chuyên gia.
39
Độ chính xác của kết quả tóm tắt do máy thực hiện tính theo công thức:
- số lượng câu do máy trích xuất trùng với kết quả trích xuất của
chuyên gia. - số lượng câu cần phải trích xuất. Các tiêu chí tóm tắt:
a - Bản tóm tắt có độ hàm chứa nội dung văn bản gốc cao nhất.
b - Mỗi câu trong văn bản tóm tắt là một câu trong văn bản gốc.
c - Các câu trong văn bản tóm tắt có sự tương đồng ngữ nghĩa thấp nhất.
d - Bản tóm tắt có tỷ lệ nén theo yêu cầu.
Chương trình tóm tắt văn bản sử dụng hai tham số là - ngưỡng tương
đồng giữa hai câu; - hằng số trộn trong công thức 2.5.
Qua thực nghiệm, và được chọn như sau:
- Đối với phương pháp tóm tắt theo tần số từ
- Đối với phương pháp tóm tắt theo công thức tổ hợp và
3.3.4.2. Đánh giá kết quả của mô hình tóm tắt văn bản
Minh họa kết quả tóm tắt một văn bản theo phương pháp tổ hợp
Tên văn bản gốc: “Công bố điểm thi THPT quốc gia năm 2018 vào ngày
11/7”12.
Tổng số câu trong văn bản gốc: 11
Tỷ lệ nén của bản tóm tắt: 30% => Số câu cần rút (trích xuất): 3
Thực hiện: sử dụng lần lượt các chức năng “Mở văn bản”; “Tách từ - Tách
câu”; “Chuẩn hóa văn vản”; “Tóm tắt văn bản” để tóm tắt văn bản.
Kết quả: bản tóm tắt theo cảm quan là đáp ứng yêu cầu (Hình 3.3).
12 http://vietnamnet.vn/vn/giao-duc/tuyen-sinh/cong-bo-diem-thi-thpt-quoc-gia-nam-2018-vao-ngay- 11-7-459910.html#inner-article
40
Nội dung các câu trong văn bản gốc
Câu số 1
2
3
4 5
6
7
8
9
10
11
Công bố điểm thi THPT quốc gia năm 2018 vào ngày 11/7 Bộ GD-ĐT cho biết các hội đồng thi sẽ công bố và thông báo kết quả thi THPT quốc gia năm 2018 cho thí sinh vào ngày 11/7. Theo quy chế của Bộ GD-ĐT, chậm nhất đến ngày 10/7, các Hội đồng thi xuất kết quả chấm thi từ phần mềm hỗ trợ chấm thi (do Bộ GD-ĐT cung cấp) gửi bảo đảm ở chế độ mật về Cục Quản lý chất lượng để cập nhật kết quả thi vào phần mềm quản lý thi. Cùng đó, phải hoàn thành việc đối sánh kết quả thi chậm nhất ngày 11/7. Sau đó, các Hội đồng thi công bố và thông báo kết quả cho thí sinh vào ngày 11/7. Điểm của bài thi tổ hợp là trung bình cộng điểm của các môn thi thành phần, quy về thang điểm 10, làm tròn đến 2 chữ số thập phân. Điểm của các bài thi độc lập và điểm của từng môn thi thành phần trong bài thi tổ hợp được quy về thang điểm 10, làm tròn đến 2 chữ số thập phân. Thí sinh băn khoăn, thắc mắc về điểm các bài thi của mình có thể gửi đơn phúc khảo kể từ ngày công bố kết quả thi, tức từ ngày 11/7 tại nơi đăng ký dự thi. Chậm nhất ngày 15/7, các sở GD-ĐT phải cập nhật danh sách thí sinh được công nhận tốt nghiệp THPT vào phần mềm quản lý thi. Các hội đồng thi sẽ công bố kết quả xét công nhận tốt nghiệp THPT tới các thí sinh chậm nhất ngày 17/7. Hiệu trưởng các trường THPT sẽ cấp giấy chứng nhận tốt nghiệp tạm thời, trả học bạ và các loại giấy chứng nhận (bản chính) cho thí sinh chậm nhất ngày 20/7.
Kết quả tóm tắt
Nội dung các câu trong bản tóm tắt
Câu trong văn bản gốc
2
8
9
Bộ GD-ĐT cho biết các hội đồng thi sẽ công bố và thông báo kết quả thi THPT quốc gia năm 2018 cho thí sinh vào ngày 11/7. Thí sinh băn khoăn, thắc mắc về điểm các bài thi của mình có thể gửi đơn phúc khảo kể từ ngày công bố kết quả thi, tức từ ngày 11/7 tại nơi đăng ký dự thi. Chậm nhất ngày 15/7, các sở GD-ĐT phải cập nhật danh sách thí sinh được công nhận tốt nghiệp THPT vào phần mềm quản lý thi.
Hình 3.3. Kết quả tóm tắt văn bản theo phương pháp tổ hợp với tỷ lệ nén 30%
41
Kết quả tóm tắt theo tỷ lệ nén 10%
Chương trình tóm tắt văn bản
Microsoft Word 2003
Theo P.Pháp tổ hợp
Theo tần số từ
Văn bản : Số câu
Chính xác
Chính xác
Chính xác
1/2 2/6 0/2 1/3 1/2
1 : 29 2 : 68 3 : 27 4 : 36 5 : 20 Độ chính xác trung bình
Nhóm văn bản thuộc chủ đề giáo dục 50% 33.3% 0% 33.3% 0% 27%
50% 33.3% 0% 33.3% 50% 33%
1/2 2/6 0/2 1/3 0/2
Rút 4 câu Rút 11 câu Rút 5 câu Rút 4 câu Rút 3 câu
# # # # # 0%
1/3 0/2 2/4 2/4 0/1
1 : 38 2 : 26 3 : 42 4 : 47 5 : 18 Độ chính xác trung bình
1/3 0/2 1/4 2/4 0/1
33.3% 0% 50% 50% 0% 27%
Rút 5 câu Rút 4 câu 1/4 Rút 5 câu 0/1
# # 25% # 0% 12.5%
1 : 26 2 : 10 3 : 53 4 : 25 5: 54
1/2 0/1 1/5 0/2 2/5
Độ chính xác trung bình
1/2 0/1 2/5 0/2 0/5
50% 0% 20% 0% 40% 22%
Rút 3 câu Rút 2 câu Rút 6 câu Rút 3 câu 0/5
# # # # 0% 0%
1/3 0/1 0/3 2/5 3/8
1 : 30 2 : 15 3 : 34 4 : 53 5 : 89 Độ chính xác trung bình
33.3% 0% 0% 40% 37.5% 32%
1/3 0/1 0/3 1/5 3/8
1/3 1/2 1/3 Rút 7 câu Rút 10 câu
33.3% 50% 33.3% # # 11.4%
1/2 0/2 0/1 2/5 1/3
1 : 21 2 : 21 3 : 17 4 : 58 5 : 38 Độ chính xác trung bình
50% 0% 0% 40% 33,3% 25%
1/2 0/2 0/1 1/5 1/3
1/2 0/2 0/1 Rút 6 câu Rút 5 câu
50% 0% 0% # # 16.7%
0/3 1/2 1/3 0/2 1/4
1 : 32 2 : 21 3 : 32 4 : 25 5 : 49 Độ chính xác trung bình Độ chính xác chung
Nhóm văn bản thuộc chủ đề kinh doanh 33.3% 0% 25% 50% 0% 22% Nhóm văn bản thuộc chủ đề Du lịch 50% 0% 40% 0% 0% 18% Nhóm văn bản thuộc chủ đề Khoa học 33.3% 0% 0% 20% 37.5% 18% Nhóm văn bản thuộc chủ đề Thể thao 50% 0% 0% 20% 33,3% 22% Nhóm văn bản thuộc chủ đề Pháp luật 33,3% 50% 33.3% 0% 50% 33% 26%
0% 50% 33.3% 0% 25% 22% 27%
1/3 1/2 1/3 0/2 2/4
Rút 5 câu Rút 3 câu Rút 4 câu Rút 3 câu Rút 5 câu
# # # # # 0% 15.4%
Bảng 3.1. Kết quả tóm tắt 6 nhóm văn bản theo tỷ lệ nén 10%
42
Kết quả tóm tắt theo tỷ lệ nén 20%
Chương trình tóm tắt văn bản
Microsoft Word 2003
Theo P.Pháp tổ hợp
Theo tần số từ
Văn bản : Số câu
Chính xác
Chính xác
Chính xác
4/5 9/13 3/5 5/7 3/4
1 : 29 2 : 68 3 : 27 4 : 36 5 : 20 Độ chính xác trung bình
Nhóm văn bản thuộc chủ đề giáo dục 60% 61.5% 60% 71.4% 50% 61%
80% 69.2% 60% 71.4% 75% 71.1%
3/5 8/13 3/5 5/7 2/4
2/5 Rút 16 câu Rút 8 câu 4/7 Rút 5 câu
40% # # 57.1% # 48.6%
6/7 3/5 5/8 6/9 2/3
1 : 38 2 : 26 3 : 42 4 : 47 5 : 18 Độ chính xác trung bình
5/7 3/5 6/8 6/9 2/3
85.7% 60% 62.5% 66.7% 66.7% 68.3%
Rút 8 câu Rút 6 câu Rút 9 câu Rút 10 câu Rút 2 câu
# # # # # 0%
2/4 1/2 8/10 2/5 4/10
1 : 26 2 : 10 3 : 53 4 : 25 5: 54 Độ chính xác trung bình
3/5 1/2 7/10 3/5 5/10
40% 50% 80% 40% 40% 50%
Rút 6 câu 1/2 Rút 13 câu Rút 6 câu 3/10
# 50% # # 30% 40%
4/6 2/3 4/6 8/10 12/17
1 : 30 2 : 15 3 : 34 4 : 53 5 : 89 Độ chính xác trung bình
66.7% 66.7% 66.7% 80% 70.5% 70.1%
4/6 2/3 4/6 7/10 12/17
Rút 7 câu 1/3 Rút 7 câu Rút 12 câu Rút 24 câu
# 33.3% # # # 33.3%
2/4 2/4 2/3 9/11 5/7
1 : 21 2 : 21 3 : 17 4 : 58 5 : 38 Độ chính xác trung bình
50% 50% 66.7% 81.8% 71,4% 64%
2/4 2/4 2/3 8/11 5/7
Rút 2 câu 1/4 Rút 1 câu 6/11 4/7
# 25% # 54.5% 57.1 45.5%
5/6 3/4 4/6 3/5 6/9
1 : 32 2 : 21 3 : 32 4 : 25 5 : 49 Độ chính xác trung bình Độ chính xác chung
Nhóm văn bản thuộc chủ đề kinh doanh 71.4% 60% 75% 66.7% 66.7% 68% Nhóm văn bản thuộc chủ đề Du lịch 60% 50% 70% 60% 50% 58% Nhóm văn bản thuộc chủ đề Khoa học 66.7% 66.7% 66.7% 70% 70.5% 68% Nhóm văn bản thuộc chủ đề Thể thao 50% 50% 66.7% 72.7% 71,4% 62.2% Nhóm văn bản thuộc chủ đề Pháp luật 66.7% 75% 66.7% 80% 77.8% 73% 65%
83.3% 75% 66.7% 60% 66.7% 70.3% 65.6%
4/6 3/4 4/6 4/5 7/9
Rút 8 câu 1/4 Rút 7 câu Rút 6 câu 5/9
# 25% # # 55.6% 40.3% 34.6%
Bảng 3.2. Kết quả tóm tắt 6 nhóm văn bản theo tỷ lệ nén 20%
43
Kết quả tóm tắt theo tỷ lệ nén 30%
Chương trình tóm tắt văn bản
Microsoft Word 2003
Theo P.Pháp tổ hợp
Theo tần số từ
Văn bản : Số câu
Chính xác
Chính xác
Chính xác
7/8 17/20 6/8 7/10 4/6
1 : 29 2 : 68 3 : 27 4 : 36 5 : 20 Độ chính xác trung bình
6/8 13/20 6/8 7/10 4/6
87.5% 85% 75% 70% 66.7% 76.8%
7/10 13/19 7/12 6/10 4/6
70% 68.4% 58.3% 60% 66.7% 64.7%
9/11 5/7 8/12 10/14 4/5
1 : 38 2 : 26 3 : 42 4 : 47 5 : 18 Độ chính xác trung bình
Nhóm văn bản thuộc chủ đề giáo dục 75% 65% 75% 70% 66.7% 71.3% Nhóm văn bản thuộc chủ đề kinh doanh 72.7% 57.1% 66.7% 64.3% 80% 68.2%
81.8% 71.4% 66.7% 71.4% 80% 74.3%
8/11 4/7 8/12 9/14 4/5
8/13 4/8 8/13 10/14 3/5
61.5% 50/% 61.5% 71.4 60% 60.9%
Nhóm văn bản thuộc chủ đề Du lịch
1 : 26 2 : 10 3 : 53 4 : 25 5: 54
4/7 2/3 13/15 4/7 11/16
Độ chính xác trung bình
4/7 2/3 11/15 5/7 11/16
57,1% 66.7% 86,7% 57,1% 68.8% 67.3%
6/9 3/5 12/18 5/7 12/16
66.7% 60% 66.7% 71.4% 75% 68%
7/9 3/4 8/10 11/15 20/26
1 : 30 2 : 15 3 : 34 4 : 53 5 : 89 Độ chính xác trung bình
7/9 3/4 7/10 12/15 20/26
77.8% 75% 80% 73.3% 76.9% 76.6%
6/9 3/5 6/9 12/16 17/24
66.7% 60% 66.7% 75% 70.8% 67.8%
5/6 4/6 3/5 14/17 8/11
1 : 21 2 : 21 3 : 17 4 : 58 5 : 38 Độ chính xác trung bình
83.3% 66.7% 60% 82.4% 72,7% 73%
4/6 4/6 3/5 13/17 8/11
1/2 2/5 2/4 12/17 8/13
50% 40% 50% 70.6% 61.5% 54.4%
7/9 4/6 7/9 5/7 11/14
1 : 32 2 : 21 3 : 32 4 : 25 5 : 49 Độ chính xác trung bình Độ chính xác chung
57,1% 66.7% 73.3% 71.4% 68.8% 67.5% Nhóm văn bản thuộc chủ đề Khoa học 77.8% 75% 70% 80% 76.9% 75.9% Nhóm văn bản thuộc chủ đề Thể thao 66.7% 66.7% 60% 76.5% 72,7% 68,5% Nhóm văn bản thuộc chủ đề Pháp luật 77.8% 66.7% 66.7% 71.4% 71.4% 70.8% 70.3%
77.8% 66.7% 77.8% 71.4% 78.6% 74.5% 73.7%
7/9 4/6 6/9 5/7 10/14
8/11 4/6 7/10 4/8 11/17
72.7% 66.7% 70% 50% 64.7% 64.8% 63,4%
Bảng 3.3. Kết quả tóm tắt 6 nhóm văn bản theo tỷ lệ nén 30%
44
Kết quả tóm tắt ở tỷ lệ nén 10% có độ chính xác khá thấp. Phương pháp
tổ hợp cho kết quả chung tốt nhất. Microsoft Word 2003 thường rút số câu vượt
quy định quá nhiều (nên không thể giá đúng tính chính xác).
Với tỷ lệ nén 20%, độ chính xác trong kết quả tóm tắt tăng rất mạnh so
với tỷ lệ nén 10%. Tóm tắt theo công thức tổ hợp cho kết quả tốt nhất. Microsoft
Word 2003 có kết quả tóm tắt khá yếu.
Với tỷ lệ nén 30%, kết quả tóm tắt có độ chính xác khá cao. Tóm tắt theo
công thức tổ hợp cho kết quả tốt nhất. Microsoft Word 2003 có kết quả thấp
nhất (chấp nhận kết quả tóm tắt vượt số câu quy định của Microsoft Word).
Hình 3.4 cho thấy tuy phương pháp tổ hợp có kết quả tóm tắt khá tốt nhưng
chưa mạnh hơn hẳn so với phương pháp tần số từ. Sở dĩ kết quả như vậy là do
sử dụng công thức 2.5 với hằng số trộn và ngưỡng tương đồng giữa hai
câu . Như vậy, nói chung kết quả tóm tắt vẫn phụ thuộc quá nhiều vào
tần suất từ (tới 70%).
80
70
60
50
PP tổ hợp
PP tần số từ
40
MS Word
30
20
10
0
Nén 10%
Nén 20%
Nén 30%
Hình 3.4. Độ chính xác của các phương pháp tóm tắt theo tỷ lệ nén
45
90
8
6
9
,
,
,
5
3
7
,
,
,
3
6 7
6 7
8
5 7
3
,
,
,
4 7
80
4 7
5
2
3 7
8
3 7
5
,
3
,
,
,
,
1 7
0 7
8
0 7
7
,
,
4
8 6
8 6
8 6
,
7 6
7 6
7 6
9
Giáo dục
,
4 6
4 6
70
3 6
0 6
4
,
Kinh doanh
4 5
60
Du lịch
50
Khoa học
40
Thể thao
30
Pháp luật
20
KQ chung
10
0
MS Word 2003
PP tổ hợp
PP tần số từ
Hình 3.5. Độ chính xác của các phương pháp tóm tắt ở tỷ lệ nén 30% đối với
một số lĩnh vực
Hình 3.5 cho thấy kết quả tóm tắt chưa thật sự ổn định trên tất cả các lĩnh
vực. Có thể thấy, do sử dụng 150 bài báo trong lĩnh vực giáo dục nên một số từ
đặc trưng của lĩnh vực này có xác suất xuất hiện cao ở chủ đề 83, 116, 136
(hình 3.2). Trong khi đó đối với các lĩnh vực khác dữ liệu chưa có sự phân loại.
Vì trong mô hình suy luận chủ đề ẩn LDA tổng phân bố xác suất của một từ
trên tập chủ đề bằng 1; tổng phân bố xác suất của các từ trên một chủ đề bằng 1;
tổng phân bố xác suất của các chủ đề trên một văn bản bằng 1. Như vậy, để có kết
quả tóm tắt theo suy luận chủ đề ẩn đạt hiệu quả cao cho một lĩnh vực cần phải:
- Thu thập một cơ sở dữ liệu tổng thể có đầy đủ các từ đặc trưng cho lĩnh
vực này và tần suất của các từ đặc trưng phải đủ lớn để chúng có xác suất xuất
hiện cao trong một hoặc một số chủ đề.
- Loại bỏ các ký tự vô ích, các từ vô ích (bao gồm cả các từ vô nghĩa và
các từ có thường xuyên xuất hiện ở mọi lĩnh vực) và các từ dừng ra khỏi cơ sở
dữ liệu tổng thể nhằm giảm kích thước cơ sở dữ liệu tổng thể và tăng hiệu quả
cho việc xác định phân bố xác suất của mỗi từ trong một chủ đề
46
Đánh giá chung
Kết quả thực nghiệm, có thể thấy mặc dù có vài trường hợp tóm tắt theo
phương pháp tổ hợp có kết quả chưa cao nhưng kết quả chung của phương pháp
này luôn tốt nhất ở mọi tỷ lệ nén.
Đối với nhóm văn bản trong lĩnh vực giáo dục, phương pháp tổ hợp cho
kết quả vượt trội. Trong khi đó, ở các lĩnh vực khác phương pháp này chưa thể
hiện rõ rệt sự hiệu quả; thậm chí còn có độ chính xác còn thấp nhất ở lĩnh vực
du lịch đối với tỷ lệ nén 30% (xem bảng 3.3 và hình 3.5). Mặt khác, phương
pháp tổ hợp cũng chưa cho kết quả ổn định trong quá trình thực nghiệm.
Nguyên nhân ở đây là do cơ sở dữ liệu tổng thể dùng để xây dựng mô hình chủ
đề ẩn chưa thật sự tốt (xem 3.3.1).
Theo cảm quan, đối với các tỷ lệ nén 20%, 30% bản tóm tắt của phương
pháp tổ hợp khá liền mạch (xem hình 3.1, 3.3).
3.4. Tổng kết chương
Trong chương này đã trình bày cụ thể về môi trường thực nghiệm; phương
pháp thực nghiệm và kết quả thực nghiệm. Kết quả thực nghiệm đã cho thấy
tóm tắt văn bản theo phương pháp tổ hợp được trình bày trong luận văn là một
hướng tiếp cận tốt.
47
KẾT LUẬN
Tóm tắt văn bản là bài toán khó và có nhiều ứng dụng trong thực tế. Những
kết quả nghiên cứu chính về tóm tắt đơn văn bản tiếng Việt được trình bày trong
luận văn là:
• Giới thiệu khái quát một số phương pháp tóm tắt văn bản phổ biến,
những vấn đề đặc thù đối với tóm tắt văn bản tiếng Việt và trình bày cụ thể mô
hình tóm tắt đơn văn bản tiếng Việt dựa vào trích xuất câu.
• Dựa vào những nghiên cứu về độ tương đồng ngữ nghĩa, luận văn đã
xây dựng một công thức tổ hợp đo độ tương đồng ngữ nghĩa dựa vào chủ đề ẩn
và phương pháp sử dụng công thức này để tóm tắt văn bản.
• Mô hình và chương trình tóm tắt đơn văn bản tiếng Việt được đánh giá
qua thực nghiệm cho thấy tính hiệu quả trong tóm tắt văn bản tiếng Việt và có
thể ứng dụng vào thực tế.
Những công việc trong tương lai:
• Nghiên cứu cải tiến mô hình, chương trình tóm tắt đơn văn bản tiếng
Việt để tăng tốc độ thực hiện và nâng cao chất lượng bản tóm tắt.
• Nghiên cứu xây dựng cơ sở dữ liệu tổng thể và mô hình suy luận chủ đề
ẩn hiệu quả cho phương pháp tính độ tương đồng dựa trên chủ đề ẩn.
• Nghiên cứu cải tiến phương pháp tính độ tương đồng ngữ nghĩa câu để
nâng hiệu suất của mô hình tóm tắt văn bản.
48
TÀI LIỆU THAM KHẢO
Tiếng Việt
1. Diệp Quang Ban (chủ biên), Hoàng Văn Thung (2008), Ngữ pháp tiếng Việt,
tập 1, Nxb Giáo dục, Hà Nội.
2. Diệp Quang Ban (2008), Ngữ pháp tiếng Việt, tập 2, Nxb Giáo dục, Hà Nội.
3. Hồ Trần Ngọc Oanh (2016), Ngữ pháp tiếng Việt,
http://nguvan.ued.udn.vn/?p=1958.
4. Đỗ Phúc, Hoàng Kiếm (2004), “Rút trích ý chính từ văn bản Tiếng Việt hỗ
trợ tạo tóm tắt nội dung”, Tạp chí Các công trình nghiên cứu –triển khai viễn
thông và công nghệ thông tin, số 13, tr. 59-63.
5. Nguyễn Trọng Phúc, Lê Thanh Hương (2010), “Tóm tắt văn bản tiếng Việt
sử dụng cấu trúc diễn ngôn”, The International Conference on Asian
Language Processing (IALP), Harbin, China, 2010.
6. Lê Quý Tài (2011), “Nghiên cứu các phương pháp xử lý tiếng việt ứng dụng
cho tóm tắt văn bản”, Luận văn thạc sỹ, Đại học Công nghệ - Đại học Quốc
gia Hà Nội.
7. Vương Toàn (2007), “Thử đề xuất quy trình tự động tóm tắt văn bản khoa
học”, http://www.glib.hcmus.edu.vn/bantin/bt107/bai3.pdf.
8. Trần Mai Vũ (2009), “Tóm tắt đa văn bản dựa vào trích xuất câu”, Luận
văn thạc sĩ, Đại học Công nghệ - Đại học Quốc gia Hà Nội.
Tiếng Anh
9. Daniel Marcu (1997), From Discourse Structures to Text Summaries, In
Proceedings of the ACL97/EACL97 Workshop on Intelligent Scalable Text
Summarization, Madrid, Spain, 1997, pp. 82–88.
49
10. Dipanjan Das, Andr´e F.T. Martins (2007), A Survey on Automatic Text
Summarization, https://www.cs.cmu.edu/~nasmith/LS2/das-martins.07.pdf,
November 21, 2007.
11. Dragomir R. Radev, Kathleen McKeown (2002), “Introduction to the
Special Issue on Summarization”, Computational Linguistics, Volume 28
(4), pp. 399-408.
12. Inderjeet Mani and Mark T. Maybury (eds) (1999), Advances in Automatic
Text Summarization, MIT Press, 1999.
13. Inderjeet Mani (2001), Automatic Summarization, John Benjamins
Publishing Co., 2001.
14. Inderjeet Mani (2001), “Summarization Evaluation: An Overview”, In:
Proceedings of the North American chapter of the Association for
Computational Linguistics (NAACL), Workshop on Automatic
Summarization, USA.
15. Jezek, K. and Steinberger, J. (2008) "Automatic Text Summarization (The
state of the art 2007 and new challenges)", Znalosti, FIIT STU Bratislava,
Slovakia, pp.1-12.
16. Morris, Jane and Hirst, Graeme, “Lexical cohesion, the thesaurus, and the
structure of text”, Computational linguistics, 17(1), March 1991, 21-48.
17. Phan Xuan Hieu, Susumu Horiguchi, Nguyen Le Minh (2008), Learning to
Classify Short and Sparse Text & Web with Hidden Topics from Large-scale
Data Collections, In The 17th International World Wide Web Conference,
2008.
18. Ponzetto, Simone Paolo, and Michael Strube (2007), Knowledge Derived
from Wikipedia For Computing Semantic Relatedness, Journal of Artificial
Intelligence Research, 30: 181-212, 2007.
50
19. Senellart and V. D. Blondel (2008), Automatic discovery of similar words,
Survey of Text Mining II: Clustering, Classification and Retrieval (M. W.
Berry and M. Castellanos, editors): 25–44, Springer-Verlag, January 2008.
20. Strube, M. & S. P. Ponzetto (2006), WikiRelate! Computing semantic
relatedness using Wikipedia, In Proc. of AAAI-06, 2006.
21. Torsten Zesch, Iryna Gurevych (2007), Analysis of the Wikipedia Category
Graph for NLP Applications, In Proc. of the TextGraphs-2 Workshop,
NAACL-HLT, 2007.
22. Torsten Zesch, Iryna Gurevych, and Max Muhlhauser (2007), Comparing
Wikipedia and German Word-net by Evaluating Semantic Relatedness on
Multiple Datasets, In Proceedings of NAACL-HLT, 2007.
23. Vishal Gupta, Gurpreet Singh Lehal (2010), “A Survey of Text
Summarization Extractive Techniques”, Journal of Emerging Technologies
in Web Intelligence, Vol 2, No 3 (2010).
24. Yuhua Li, David McLean, Zuhair Bandar, James O'Shea, Keeley A.
Crockett (2006), Sentence Similarity Based on Semantic Nets and Corpus
Statistics, IEEE transactions on knowledge and data engineering, vol. 18, no.
8, august 2006.