ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

NÔNG TIẾN CÔNG

TÓM TẮT VĂN BẢN DỰA VÀO TRÍCH XUẤT CÂU

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

LẠNG SƠN, 2018

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

NÔNG TIẾN CÔNG

TÓM TẮT VĂN BẢN DỰA VÀO TRÍCH XUẤT CÂU

Chuyên ngành: Khoa học máy tính

Mã số: 60 48 01 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: PGS-TS Đoàn Văn Ban

LẠNG SƠN, 2018

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn là sản phẩm nghiên cứu, tìm hiểu của cá nhân

tôi. Những điều được trình bày trong luận văn hoặc là của cá nhân tôi hoặc là

được tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có xuất

xứ rõ ràng và được trích dẫn hợp pháp.

Tôi xin hoàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định

cho lời cam đoan của mình.

Lạng Sơn, tháng 4 năm 2018

TÁC GIẢ LUẬN VĂN

Nông Tiến Công

i

MỤC LỤC

MỤC LỤC .......................................................................................................... i

DANH MỤC CÁC HÌNH ................................................................................ iii

DANH MỤC CÁC BẢNG............................................................................... iv

MỞ ĐẦU ........................................................................................................... 1

Chương 1 TÓM TẮT VĂN BẢN TIẾNG VIỆT .............................................. 2

1.1. Bài toán tóm tắt văn bản ................................................................. 2

1.1.1. Phân loại tóm tắt ....................................................................... 2

1.1.3. Mô hình tóm tắt văn bản và một số phương pháp tiếp cận ...... 5

1.2. Các phương pháp đánh giá ............................................................. 9

1.2.1. Các phương pháp đánh giá trong ........................................... 10

1.2.2. Các phương pháp đánh giá ngoài ........................................... 11

1.3. Tóm tắt văn bản tiếng Việt dựa vào trích xuất câu và một số vấn đề liên quan ........................................................................................ 12

1.3.1. Đặc điểm ngôn ngữ trong văn bản tiếng Việt......................... 12

1.3.2. Một số hướng tiếp cận bài toán tóm tắt văn bản tiếng Việt ... 15

1.3.3. Mô hình tóm tắt văn bản tiếng Việt dựa vào trích xuất câu ... 17

1.4. Tổng kết chương ........................................................................... 18

Chương 2 PHƯƠNG PHÁP TÓM TẮT VĂN BẢN DỰA TRÊN ĐỘ TƯƠNG ĐỒNG CÂU ........................................................................................ 19

2.1. Một số khái niệm và phương pháp tính độ tương đồng câu ......... 19

2.1.1. Độ tương đồng ........................................................................ 19

ii

2.1.2. Độ tương đồng ngữ nghĩa và phương pháp trích xuất câu dựa trên độ tương đồng ngữ nghĩa câu. ........................................................... 20

2.1.3. Tính độ tương đồng theo độ đo Cosine .................................. 21

2.1.4. Phương pháp tính độ tương đồng câu dựa vào chủ đề ẩn ...... 22

2.1.5. Phương pháp tính độ tương đồng câu dựa vào mạng Wikipedia ................................................................................................................... 25

2.2. Mô hình tóm tắt văn bản tiếng Việt dựa trên trích xuất câu quan trọng theo phương pháp tính độ tương đồng câu .......................... 28

2.2.1. Giai đoạn tiền xử lý ................................................................ 29

2.2.2. Giai tạo danh sách câu khả dụng ............................................ 32

2.2.3. Giai đoạn sinh văn bản tóm tắt ............................................... 34

2.3. Tổng kết chương ........................................................................... 34

Chương 3 THỰC NGHIỆM MÔ HÌNH TÓM TẮT VĂN BẢN TIẾNG VIỆT ............................................................................................................. 35

3.1. Môi trường thực nghiệm ............................................................... 35

3.2. Chương trình tóm tắt văn bản ....................................................... 35

3.3. Tiến hành thực nghiệm ................................................................. 37

3.3.1. Cơ sở dữ liệu tổng thể ............................................................. 37

3.3.2. Mô hình suy luận chủ đề ẩn .................................................... 37

3.3.3. Dữ liệu thực nghiệm ............................................................... 38

3.3.4. Đánh giá độ chính xác của mô hình tóm tắt văn bản ............. 38

3.4. Tổng kết chương ........................................................................... 46

KẾT LUẬN ..................................................................................................... 47

TÀI LIỆU THAM KHẢO ............................................................................... 48

iii

DANH MỤC CÁC HÌNH

Hình 1.1. Mô hình hệ thống tóm tắt văn bản [13] .................................... 5

Hình 1.2. Mô hình chung cho tóm tắt văn bản tiếng Việt dựa vào trích xuất

câu .................................................................................................................... 17

Hình 2.1. Mô hình tính độ tương đồng câu với chủ đề ẩn ..................... 24

Hình 2.2. Mối quan hệ giữa đồ thị bài viết và đồ thị chủ đề Wikipedia 26

Hình 2.3. Mô hình tóm tắt văn bản tiếng Việt ........................................ 28

Hình 2.4. Các câu sau khi tách trong cửa sổ nhỏ góc dưới bên trái ....... 29

Hình 2.5. Văn bản sau khi chuẩn hóa ..................................................... 30

Hình 2.6. Xác định từ dừng và ký tự vô ích............................................ 30

Hình 3.1. Giao diện chương trình ........................................................... 36

Hình 3.2. Các từ đặc trưng của lĩnh vực giáo dục có xác suất xuất hiện cao

ở chủ đề 83, 116, 136 trong mô hình suy luận chủ đề ẩn ............................... 38

Hình 3.3. Kết quả tóm tắt văn bản theo phương pháp tổ hợp với tỷ lệ nén

30% .................................................................................................................. 40

Hình 3.4. Độ chính xác của các phương pháp tóm tắt theo tỷ lệ nén ..... 44

Hình 3.5. Độ chính xác của các phương pháp tóm tắt ở tỷ lệ nén 30% đối

với một số lĩnh vực .......................................................................................... 45

iv

DANH MỤC CÁC BẢNG

Bảng 3.1. Kết quả tóm tắt 6 nhóm văn bản theo tỷ lệ nén 10% ...................... 41

Bảng 3.2. Kết quả tóm tắt 6 nhóm văn bản theo tỷ lệ nén 20% ...................... 42

Bảng 3.3. Kết quả tóm tắt 6 nhóm văn bản theo tỷ lệ nén 30% ...................... 43

1

MỞ ĐẦU

Với sự phát triển của công nghệ và Internet hiện nay, thông tin thời sự

được cập nhật trên các Website với tốc độ vũ bão. Điều đó đã mang lại cho con

người rất nhiều lợi ích thiết thực nhưng nó cũng khiến họ gặp phải không ít khó

khăn khi sàng lọc lấy thông tin hữu ích từ nguồn dữ liệu khổng lồ ấy.

Theo đánh giá của công ty Oracle1, hiện có đến 80% dữ liệu trên thế giới

là dữ liệu văn bản. Vì vậy, việc tổ chức quản lý và khai thác hiệu quả nguồn dữ

liệu này là những bài toán lớn cần được quan tâm nghiên cứu và giải quyết.

Tóm tắt văn bản tự động nhằm nhanh chóng thu được những thông tin quan

trọng, tăng hiệu quả xử lý thông tin là một trong các hướng tiếp cận khai thác

dữ liệu văn bản nhận được sự quan tâm nghiên cứu của nhiều nhà khoa học,

nhóm nghiên cứu cũng như các công ty lớn trên thế giới.

Tóm tắt văn bản tự động có nhiều ứng dụng trong thực tế như: tóm tắt tin

tức, tóm tắt kết quả tìm kiếm trong các máy tìm kiếm, tóm tắt hình ảnh, tóm tắt

video,...2

Do những đặc thù của ngôn ngữ nên việc giải quyết bài toán tóm tắt văn

bản tiếng Việt đặt ra cho các nhà nghiên cứu những thách thức, khó khăn riêng.

Các kết quả khả quan từ những nghiên cứu về tóm tắt văn bản tiếng Việt được

công bố hiện nay là cơ sở cho các dự án xây dựng hệ thống tóm tắt văn bản

tiếng Việt tự động hiệu quả trong tương lai [4], [5], [6], [7], [8].

Với việc chọn đề tài “Tóm tắt văn bản dựa vào trích xuất câu”, luận

văn trung vào việc nghiên cứu, đánh giá và lựa chọn phương pháp xây dựng

một mô hình tóm tắt văn bản tiếng Việt hiệu quả.

1 http://www.oracle.com/technetwork/testcontent/9ir2text-bwp-f-129974.pdf 2 https://en.wikipedia.org/wiki/Automatic_summarization

2

Chương 1

TÓM TẮT VĂN BẢN TIẾNG VIỆT

1.1. Bài toán tóm tắt văn bản

Theo Inderjeet Mani thì mục đích của tóm tắt văn bản tự động là: “Tóm tắt

văn bản tự động nhằm mục đích trích xuất nội dung từ một nguồn thông tin và trình

bày các nội dung quan trọng nhất cho người sử dụng theo một khuôn dạng súc tích

và gây cảm xúc đối với người sử dụng hoặc một chương trình cần đến” [13].

Theo Radev: “Văn bản tóm tắt là văn bản được tạo từ một hoặc nhiều văn

bản khác mà truyền tải được những thông tin quan trọng trong văn bản gốc nhưng

có độ dài không quá một nửa văn bản gốc (thường ngắn hơn đáng kể)” [11].

Như vậy, tóm tắt văn bản là việc tìm các ý chính của văn bản. Bản tóm tắt

là có ba đặc điểm sau [10], [11], [12], [13]:

- Bảo toàn nội dung chính so với văn bản gốc: Các nội dung quan trọng

hay nổi bật của bản gốc phải được giữ lại trong bản tóm tắt.

- Ngắn ngọn: bản tóm tắt thường ngắn hơn bản gốc nhiều.

- Dễ đọc: người sử dụng có thể đọc và hiểu được dễ dàng.

Việc đưa ra được một bản tóm tắt có chất lượng và không bị giới hạn bởi

miền ứng dụng được xác định là rất khó khăn nên các phương pháp giải quyết

bài toán tóm tắt văn bản thường chỉ hướng đến một kiểu văn bản cụ thể hoặc

một kiểu tóm tắt cụ thể.

1.1.1. Phân loại tóm tắt

Có nhiều cách phân loại tóm tắt văn bản khác nhau, sau đây là một số cách

phân loại tiêu biểu [13]:

1.1.1.1. Theo định dạng đầu ra

- Tóm tắt trích xuất (Extract): là một bản tóm tắt gồm các đoạn văn bản

được rút trích từ văn bản gốc.

3

- Tóm tắt tóm lược (Abstract): là một bản tóm tắt được tạo ra dựa trên các

thông tin quan trọng trong văn bản gốc.

1.1.1.2. Theo mức độ xử lý

- Tiếp cận mức ngoài (surface-level): thông tin được miêu tả dưới dạng

khái niệm về các đặc trưng nông (shallow feature). Các đặc trưng nông bao

gồm các thuật ngữ (term) quan trọng qua thống kê (dựa vào tần số của các thuật

ngữ trong văn bản), các thuật ngữ quan trọng dựa vào vị trí, các thuật ngữ trong

các cụm từ dấu hiệu hay các thuật ngữ trong câu truy vấn của người dùng. Kết

quả là một bản tóm tắt dạng trích xuất (extract).

- Tiếp cận mức sâu (deeper-level): ở mức này, bản tóm tắt có thể là dạng

trích xuất hoặc dạng tóm tắt (abstract) và cần phải sử dụng đến sinh tổng hợp

ngôn ngữ tự nhiên. Với dạng tiếp cận này, phải cần đến những phân tích về mặt

ngữ nghĩa, chẳng hạn sử dụng hướng tiếp cận thực thể để xây dựng dạng biểu

diễn của các thực thể văn bản (đơn vị văn bản) và mối quan hệ giữa các thực

thể rồi từ đó tìm ra phần quan trọng. Mối quan hệ giữa các thực thể gồm quan

hệ ngữ nghĩa như: đồng nghĩa, trái nghĩa, nghĩa hẹp, nghĩa rộng…, quan hệ cú

pháp: dựa trên cây phân tích cú pháp và các mối quan hệ khác.

1.1.1.3. Theo mục đích của bản tóm tắt

- Tóm tắt chỉ thị (Indicative): Đưa ra những thông tin ngắn gọn về chủ đề

chính của văn bản. Dạng tóm tắt này thường được sử dụng trong các hệ thống

tìm kiếm thông tin. Thông thường, độ dài của văn bản tóm tắt loại này chỉ từ 5

đến 10% độ dài của toàn bộ văn bản.

- Tóm tắt thông tin (Information): tóm tắt bao gồm tất cả các thông tin nổi

bật có trong văn bản nguồn tại nhiều mức độ chi tiết khác nhau.

- Tóm tắt đánh giá (Evaluation): tóm tắt nhằm mục đích đánh giá vấn đề

chính của văn bản nguồn, thể hiện quan điểm của tác giả đối với công việc của họ.

4

Việc phân loại tóm tắt dựa theo mục đích như trên không loại trừ lẫn nhau,

có thể một bản tóm tắt vừa có chức năng cung cấp tin tức lại vừa là kiểu trình

bày sơ lược.

1.1.1.4. Theo người dùng hoặc chủ đề

- Tóm tắt chung (Generalized): tóm tắt nhằm mục đích đưa ra các nội dung

quan trọng bao quát văn bản gốc.

- Tóm tắt hướng truy vấn (Query-based): tóm tắt nhằm mục đích đưa ra

kết quả dựa vào câu truy vấn của người.

- Tóm tắt hướng đến người dùng hoặc chủ đề (User focused or Topic

focused summaries): văn bản tóm tắt đáp ứng nhu cầu của người dùng cụ thể

hoặc chủ đề cụ thể nào đó.

1.1.1.5. Theo số lượng văn bản đầu vào

- Tóm tắt đơn văn bản: đầu vào là một văn bản

- Tóm tắt đa văn bản: đầu vào là một tập văn bản

1.1.1.6. Theo ngôn ngữ

- Tóm tắt đơn ngôn ngữ (Monolingual): Chỉ dựa trên một ngôn ngữ.

- Tóm tắt đa ngôn ngữ (Multilingual): Thực hiện tóm tắt trên nhiều loại

ngôn ngữ khác nhau.

Cách phân loại trên chỉ mang tính tương đối, trên thực tế một bản tóm tắt

có thể mang nhiều đặc trưng phân loại khác nhau. Ví dụ, bản tóm tắt tin tức

trong chương trình điểm báo của đìa truyền hình Việt Nam có thể được xếp vào

dạng tóm tắt chỉ thị, hoặc tóm tắt đa văn bản, hoặc tóm tắt phục vụ tìm kiếm,...

1.1.2. Một số thuật ngữ

- Tỷ lệ nén (Compression Rate): là độ đo thể hiện bao nhiêu thông tin

được cô đọng trong văn bản tóm tắt được tính bằng công thức:

(1.1)

5

SummaryLength: Độ dài văn bản tóm tắt

SourceLength: Độ dài văn bản nguồn

- Độ nổi bật hay liên quan (Salience or Relevance): là trọng số được gán

cho thông tin trong văn bản thể hiện độ quan trọng của thông tin đó đối với toàn

văn bản hay để chỉ sự liên quan của thông tin đó đối với chương trình của người

sử dụng.

- Sự cố kết (độ mạch lạc - coherence): Một văn bản tóm tắt gọi là cố kết

nếu tất cả các thành phần nằm trong nó tuân theo một thể thống nhất về mặt nội

dung và không có sự trùng lặp giữa các thành phần.

1.1.3. Mô hình tóm tắt văn bản và một số phương pháp tiếp cận

Hình 1.1. Mô hình hệ thống tóm tắt văn bản [13]

Về cơ bản hệ thống tóm tắt văn bản tự động được chia thành 3 giai đoạn

chính [13]:

- Phân tích (Analysis or Interpretation): biểu diễn và hiểu văn bản nguồn

- Biến đổi (Transformation): trích chọn những nội dung quan trọng

6

- Tổng hợp (Synthesis or Realization): tạo văn bản mới chứa những điểm

chính, quan trọng của văn bản gốc.

Trong mô hình trên, đầu vào của hệ thống có thể là một hoặc nhiều tài

liệu, văn bản hay các thông tin đa phương tiện như ảnh, âm thanh, video. Những

thông số chính được đề cập trong mô hình ảnh hưởng lớn đến hoạt động và chất

lượng văn bản tóm tắt của hệ thống là:

- Tỷ lệ nén: Tỷ lệ nén cảng thấp thì thông tin sẽ bị mất càng nhiều.

- Mục đích tóm tắt: Cho đại chúng hay cho nhóm người dùng cụ thể.

- Chức năng: Tóm tắt chỉ thị, tóm tắt thông tin, hay tóm tắt đánh giá

- Độ mạch lạc: Văn bản tóm tắt cần diễn đạt câu từ liền mạch hay chỉ bao

gồm các đoạn rời rạc.

1.1.3.1. Các phương pháp áp dụng trong pha phân tích

Trong pha này, văn bản nguồn được phân tích để xác định các đơn vị ngữ

liệu và các đặc trưng của chúng, kết quả của pha này là đầu vào cho pha biến

đổi. Các phương pháp áp dụng trong pha này bao gồm:

➢ Phương pháp thống kê

Các phương pháp thuộc loại này sử dụng các số liệu thống kê về độ quan

trọng của các từ, cụm từ, câu hoặc đoạn văn. Các phương pháp thống kê gồm:

- Dựa vào vị trí

+ Chủ đề, tiêu đề: tiêu đề hay chủ đề của các đoạn văn thường chứa các từ

và ngữ quan trọng.

+ Câu ở đầu hoặc cuối đoạn: xác suất câu đầu đoạn hay câu cuối đoạn

chứa ý chính của cả đoạn là rất lớn, đặc biệt là câu đầu đoạn. Ngoài ra các đoạn

đầu và cuối văn bản cũng quan trọng hơn các đoạn giữa.

+ Minh hoạ, chú thích: trong các câu chú thích, câu minh hoạ cho ảnh hay

đồ thị thường chứa các thông tin quan trọng.

7

- Dựa vào cụm từ dấu hiệu

Các cụm từ dấu hiệu có đặc điểm thống kê rất tốt. Sau các cụm từ này

thường là các từ hay câu quan trọng. Có hai loại cụm từ dấu hiệu:

+ Thứ nhất là các cụm từ mang ý nhấn mạnh, sau cụm từ này đoạn văn

quan trọng; chẳng hạn “nói chung là”, “đặc biệt là”, “tóm lại”, “cuối cùng thì”,

“trong bài viết này tôi muốn chỉ ra”, “bài viết nói về”, “nội dung gồm”...

+ Thứ hai là các cụm từ không quan trọng, sau cụm từ này là các thành

phần không có nhiều giá trị trong việc tóm tắt, chẳng hạn: “hiếm khi mà”, “bài

này không nói đến”, “không thể nào…”

- Dựa vào thống kê tần suất từ: Độ quan trọng của từ phụ thuộc vào số

lần xuất hiện của từ đó trong văn bản. Có thể dùng các kĩ thuật như tf-idf [23],

tập thuật ngữ thường xuyên (frequent item set) để xác định tần suất từ.

➢ Phương pháp cấu trúc

Các phương pháp này sử dụng các mối liên hệ cấu trúc - ngữ pháp - ngữ

nghĩa để xác định các đơn vị ngữ liệu quan trọng. Tư tưởng chính của các

phương pháp này là những đơn vị ngữ liệu nào có chứa các thành phần liên

quan nhiều với các thành phần khác sẽ có mức độ quan trọng cao. Việc đánh

giá các mối quan hệ sẽ dựa trên các mạng ngữ nghĩa hoặc các quan hệ cú pháp.

- Phương pháp sử dụng quan hệ giữa câu, đoạn: Phương pháp này xác

định mối quan hệ giữa các đoạn trong văn bản hay các câu trong đoạn với nhau

thông qua việc tính toán mức độ liên quan giữa chúng. Các độ Cosine, Euclide,

Jaccard… được chọn để xác định độ tương đồng giữa các câu hay đoạn văn bản

đó. Sau đó, ta chọn ra đoạn hay câu có độ liên quan lớn nhất.

- Phương pháp chuỗi từ vựng (lexical chains): Phương pháp liên kết từ

vựng sử dụng các từ điển quan hệ từ vựng để xây dựng các chuỗi từ liên kết

với nhau về mặt ngữ nghĩa. Sau khi xây dựng được chuỗi các từ vựng này, ta

đánh giá độ mạnh của chúng và chọn ra những câu phù hợp. Chuỗi từ vựng

8

không những chỉ dùng trong tóm tắt văn bản mà còn được coi là lý thuyết tổng

quát của vấn đề ngữ nghĩa trong xử lý ngôn ngữ tự nhiên [16].

- Phương pháp liên kết tham chiếu (word coreferences): Phương pháp

này gọi là phương pháp trích chọn trùng lặp (anaphora-based method). Theo

phương pháp này, các cụm trùng lặp được chọn ra, phân rã xem đâu là từ (cụm

từ) tham chiếu và từ (cụm từ) được tham chiếu. Sau khi phân tách các cụm

trùng lặp, chúng ta tạo chuỗi các từ (cụm từ) tham chiếu đến cùng một từ được

tham chiếu. Chuỗi dài nhất sẽ được coi là trọng tâm của đoạn, các câu chứa các

từ trong chuỗi này có một độ ưu tiên nào đó thì sẽ được chọn.

Kết thúc pha phân tích sẽ là việc tổng hợp các chỉ số đánh giá độ quan trọng

của các đơn vị ngữ liệu và thực hiện việc chọn các đơn vị ngữ liệu nào có độ quan

trọng lớn làm đầu vào cho pha sau. Có thể nhận thấy các phương pháp thống kê

dễ cài đặt hơn các phương pháp cấu trúc. Việc cài đặt các phương pháp thống kê

đơn thuần chỉ là áp dụng các công thức toán học, còn để cài đặt các phương pháp

cấu trúc thì lại cần thực hiện rất nhiều kĩ thuật về cấu trúc dữ liệu và thậm chí là

các kĩ thuật trong lĩnh vực trí tuệ nhân tạo. Tuy nhiên trong nhiều trường hợp

phương pháp cấu trúc cho kết quả tóm tắt tốt hơn các phương pháp thống kê.

1.1.3.2. Các phương pháp áp dụng trong pha biến đổi

Pha biến đổi có nhiệm vụ biến đổi đơn vị ngữ liệu được trích xuất trong

pha phân tích như cụm từ, câu, đoạn văn. Thông thường pha biến đổi thực hiện

rút gọn bản thân bên trong một câu, rồi có thể rút gọn đoạn mà không gây ảnh

hưởng đến độ chính xác. Các phương pháp trong pha biến đổi gồm [6]:

➢ Giản lược về cấu trúc câu

Lược bỏ các thành phần thừa, ít mang ý nghĩa trong câu, giúp cấu trúc câu

được thu gọn lại. Công việc này thường dựa trên phân tích cú pháp và phân tích

ngữ nghĩa các thành phần trong câu. Áp dụng phân tích cú pháp chúng ta được

các cấu trúc của câu, qua đó ta có thể thay thế thành phần bằng những thành

9

phần tương đương, ghép thành phần có nghĩa tương đương theo một luật nào

đó. Phương pháp này có thể làm câu ngắn gọn hơn, tuy nhiên khó bảo toàn

được văn phong.

➢ Giản lược về mặt ngữ nghĩa

Thay thế hoặc loại bỏ các từ, cụm từ có ý nghĩa cụ thể bằng những từ, cụm

từ ý nghĩa lúc này sẽ tổng quát, điển hình là:

- Trừu trượng hoá khái niệm: thay thế các khái niệm cụ thể bằng khái niệm

chung.

- Thay thế ngữ (cụm từ - phrase) tương đương: thay thế các ngữ đóng vai

trò như nhau trong câu bằng một ngữ chung.

1.1.3.3. Các phương pháp trong pha tổng hợp kết quả

➢ Phương pháp hiển thị phân đoạn

Các đơn vị ngữ liệu được trích xuất hay giản lược từ các pha trước được

liên kết lại thành đoạn theo đúng thứ tự trong văn bản gốc, không thêm bớt từ

nối và cũng không sắp xếp lại. Văn bản kết quả của phương pháp này có độ dễ

đọc và dễ hiểu kém, thậm chí lủng củng vì các đơn vị ngữ liệu có thể bị mập

mờ tham chiếu, không có từ nối hoặc thừa từ.

➢ Phương pháp hiển thị liên kết

Với phương pháp này, ta sẽ đưa thêm các thông tin bổ sung vào văn bản

tóm tắt. Hai phương pháp thường được áp dụng là sử dụng mẫu (template) và

ngữ liệu huấn luyện (corpus).

Các phương pháp hiển thị phân đoạn dễ cài đặt và dễ áp dụng được trong

thực tiễn hơn so với các phương pháp hiển thị liên kết vì không gặp phải những

khó khăn do trong thiết kế mẫu hoặc xây dựng kho ngữ liệu huấn luyện.

1.2. Các phương pháp đánh giá

Đánh giá một bản tóm tắt là một công việc khó bởi không tồn tại một bản

tóm tắt lý tưởng cho một (hoặc một tập) văn bản đưa ra. Hơn nữa, việc đánh

10

giá nội dung tóm tắt cũng rất khó khăn. Trường hợp kết quả là một câu trả lời

cho một câu hỏi, ta có thể xác định được câu trả lời đó đúng hay sai, nhưng

trong các trường hợp khác, thật khó trả lời liệu đầu ra là phải một kết quả đúng

hay không? Thực tế luôn có khả năng một hệ thống sinh ra một bản tóm tắt tốt

nhưng lại sai khác với bản tóm tắt do người thực hiện. Bên cạnh đó, khi việc

đánh giá được thực hiện bởi con người thì chi phí đánh giá sẽ rất cao. Mặt khác,

tóm tắt văn bản còn liên quan đến tỉ lệ nén văn bản, do đó, việc đánh giá bản

tóm tắt cần phải quan tâm đến vấn đề này, khi đó độ phức tạp và chi phí đánh

giá sẽ tăng cao.

Có nhiều kiểu đánh giá khác nhau tuỳ thuộc vào kiểu tóm tắt của hệ thống.

Có thể là đánh giá trong (intrinsic) – tập trung vào chất lượng bản tóm tắt và

đánh giá ngoài (extrinsic) – tập trung vào nhiệm vụ [14].

Các tiêu chí đánh giá:

- Độ mạch lạc (sự cố kết - coherence): đánh giá mức độ rõ ràng của văn

bản tóm tắt, tính súc tích, khả năng có thể đọc và hiểu được của bài viết…

- Độ hàm chứa thông tin (Informationess): tỉ lệ thông tin của văn bản gốc

trong văn bản tóm tắt.

- Độ liên quan (Relevance): xác định mức độ phù hợp của văn bản tóm tắt

với chủ đề cho trước (chủ đề có thể là một câu truy vấn).

- Độ dễ đọc hiểu (Reading Comprehence): một người được giao việc đọc

văn bản kết quả, sau đó trả lời các câu hỏi, hệ thống sẽ phải cho điểm và từ đó

đưa ra phần trăm những câu trả lời đúng.

1.2.1. Các phương pháp đánh giá trong

1.2.1.1. So sánh với văn bản tóm tắt khác

Ý tưởng cơ bản của phương pháp này là đem văn bản do hệ thống tóm tắt

so sánh với các bản tóm tắt khác (có thể do hệ thống tóm tắt khác thực hiện

hoặc do con người thực hiện). Thông thường là đem so sánh với văn bản tóm

11

tắt do con người thực hiện. Việc so sánh giữa các bản tóm tắt này có thể do con

người thực hiện hoặc có thể thực hiện tự động.

Khi so sánh, có thể sử dụng một số độ đo sau:

- Độ chính xác (Precision) và độ bao phủ (Recall). Tuy nhiên, 2 độ đo này

chưa đủ để phân biệt các bản tóm tắt, các bản tóm tắt khác nội dung nhưng vẫn

có cùng độ đo.

- Độ đo hạng câu (Sentence Rank): thay thế cho độ bao phủ, khi đó, một

bản tóm tắt được đặc trưng bởi hạng của các câu trong các bản tóm tắt thích

hợp. Hạng của các câu trong bản tóm tắt do hệ thống thực hiện và trong các bản

tóm tắt dùng để so sánh có thể tính bằng độ đo tương quan. Độ do này áp dụng

đối với hệ thống tóm tắt dạng trích xuất.

- Độ đo dựa trên nội dung (Content-Based): dựa trên sự tương tự về mặt

từ vựng, và có thể áp dụng đối với cả 2 dạng tóm tắt. Tuy nhiên, độ đo này hữu

dụng với các bản tóm tắt trích xuất, hoặc với các bản tóm tắt dạng abstract

nhưng có mức độ cắt-dán cao (tức là văn bản tóm tắt được tạo bởi nhiều từ,

cụm từ, câu nguyên dạng trong văn bản nguồn).

1.2.1.2. So sánh với văn bản nguồn

Với phương pháp này, ta đem so sánh văn bản tóm tắt với văn bản nguồn

để xác định mức độ hàm chứa thông tin của văn bản tóm tắt. Các độ đo dựa

trên nội dung như trên có thể sử dụng để đánh giá. đã đưa ra phương pháp sử

dụng thống kê để xác định mỗi thuật ngữ có phải là thuật ngữ trung tâm hay

không phải thuật ngữ trung tâm. Tiếp đó, phân loại vào các nhóm chính xác

(Correct), không chính xác (Incorrect) và thiếu (Missing) [14].

1.2.2. Các phương pháp đánh giá ngoài

Ý tưởng cơ bản của các phương pháp đánh giá ngoài là đánh giá tác dụng

của bản tóm tắt với các nhiệm vụ khác nhau.

12

- Đánh giá mức độ liên quan (relevance): ý tưởng của phương pháp này là

đưa ra một văn bản và một chủ đề, đánh giá xem mức độ liên quan của văn bản

với chủ đề đó.

- Đánh giá mức độ đọc hiểu: trước tiên, một người được đọc các văn bản

tóm tắt từ một hoặc nhiều văn bản, sau đó trả lời các câu hỏi kiểm tra. Hệ thống

tự động tính điểm các câu trả lời và đánh giá tỉ lệ trả lời đúng. Nếu bản tóm tắt

cho phép trả lời các câu hỏi giống như khi đọc toàn bộ văn bản nguồn thì bản

tóm tắt đó có khả năng cung cấp thông tin cao. Marcu [9] thực hiện đo mức độ

cung cấp thông tin dựa trên việc người ta có thể khôi phục lại các thông tin

quan trọng trong văn bản khi đọc bản tóm tắt của văn bản đó. Bằng thực

nghiệm, tác giả tiến hành dựng lại văn bản gốc dựa trên việc đọc văn bản tóm

tắt kết hợp phỏng đoán.

1.3. Tóm tắt văn bản tiếng Việt dựa vào trích xuất câu và một số vấn

đề liên quan

Bài toán tóm tắt văn bản tiếng Việt dự vào trích cuất câu có thể phát biểu

như sau: “Tạo một bản tóm tắt với theo tỷ lệ xác định từ văn bản gốc bằng cách

rút ra những câu quan trọng nhất. Ngôn ngữ trong văn bản gốc và văn bản tóm

tắt là tiếng Việt”.

Với những đặc thù riêng của ngôn ngữ, bài toán tóm tắt văn bản tiếng Việt

có những vấn đề phức tạp phải cần giải quyết như: cấu trúc ngữ pháp, ngữ

nghĩa, chính tả, bảng mã3,... [1], [2], [3], [6], [8]

1.3.1. Đặc điểm ngôn ngữ trong văn bản tiếng Việt

1.3.1.1. Đặc điểm ngôn ngữ

Tiếng Việt là ngôn ngữ thuộc loại hình đơn lập, không biến hình từ và âm

tiết [1], [2], [3], [6]. Đặc điểm này thể hiện rõ rệt ở tất cả các mặt ngữ âm, từ

vựng, ngữ pháp.

3 https://vi.wikipedia.org/wiki/Bộ_gõ_tiếng_Việt

13

Về đặc điểm từ vựng: Mỗi tiếng, nói chung, là một yếu tố có nghĩa. Tiếng

là đơn vị cơ sở của hệ thống các đơn vị có nghĩa của tiếng Việt. Từ tiếng, người

ta tạo ra các đơn vị từ vựng khác để định danh sự vật, hiện tượng..., chủ yếu

nhờ phương thức ghép và phương thức láy [1], [3], [6].

Theo cấu tạo, có thể phân loại từ trong tiếng Việt thành:

Từ đơn: là từ chỉ chứa một tiếng. Ví dụ: học, trường, sách, sẽ, đang,...

Từ ghép: là từ gồm 2 tiếng trở lên, như tàu xe, trường học, máy tính,...

Do đó, đối với văn bản tiếng Việt không thể phân biệt các từ bằng khoảng

trống như đối với văn bản tiếng Anh mà cần phải xử lý tách từ để xác định

chính xác các từ cấu tạo nên từng câu hay toàn văn bản.

Về đặc điểm ngữ pháp: Việc sắp xếp các từ theo một trật tự nhất định là

cách chủ yếu để biểu thị các quan hệ cú pháp. Các phương thức ngữ pháp bên

ngoài từ chủ yếu trong tiếng Việt là: trật tự từ, hư từ và ngữ điệu [2], [3], [6].

1.3.1.2. Đặc điểm chính tả

Đặc điểm chính tả tiếng Việt có ý nghĩa quan trọng tiền xử lý dữ liệu văn

bản. Một số đặc điểm chính tả tiếng Việt cần quan tâm như:

− Các tiếng đồng âm: như kĩ/kỹ, lí, lý,… thường bị sử dụng lẫn nhau như:

lý luận, lí luận, kĩ thuật, kỹ thuật,…

− Các từ địa phương: một số từ địa phương sử dụng thay cho các từ phổ

thông, chẳng hạn: cây kiểng/cây cảnh, đờn/đàn, đậu phộng/lạc,…

− Vị trí dấu thanh: theo quy định đánh dấu tiếng Việt, dấu được đặt trên

nguyên âm có ưu tiên cao nhất. Tuy nhiên, khi viết văn bản nhiều bộ gõ văn

bản không tuân thủ theo đúng nguyên tắc trên nên xảy ra hiện tượng dấu được

đặt ở các vị trí khác nhau, chẳng hạn: toán, tóan, thuý, thúy,…

− Cách viết hoa: theo quy định, chữ cái đầu câu và tên riêng phải viết hoa,

tuy nhiên vẫn tồn tại một số cách viết tuỳ tiện.

14

− Phiên âm tiếng nước ngoài: hiện nay, vẫn còn nhiều tranh cãi giữa việc

phiên âm tiếng nước ngoài thành tiếng Việt (Việt hoá), nên tồn tại nhiều cách

viết (giữ nguyên gốc tiếng nước ngoài, phiên âm ra tiếng Việt), ví dụ:

Singapore/Xin−ga−po.

− Từ gạch nối: do cách viết dấu gạch nối tuỳ tiện, không phân biệt được

giữa nối tên riêng hay chú thích.

− Kí tự ngắt câu: các kí tự đặc biệt như “.”, “;”, “!”, “?”, “…” ngăn cách

giữa các câu hoặc các vế câu trong câu ghép.

1.3.1.3. Bảng mã tiếng Việt trên máy tính

Hiện nay, việc đưa tiếng Việt vào máy tính không chỉ để soạn thảo văn

bản mà còn để xây dựng các phần mềm có giao diện tiếng Việt và cũng để xử

lý tiếng Việt. Tuy nhiên, hiện nay có nhiều cách mã hoá các kí tự tiếng Việt

khác nhau, dẫn tới có nhiều bảng mã khác nhau được sử dụng. Theo thống kê,

có tới khoảng 14 bảng mã tiếng Việt khác nhau được sử dụng4, do đó , việc

khai thác tài liệu cũng như xử lý dữ liệu rất phức tạp. Có thể kể đến một số

bảng mã dưới đây.

- Unicode: là bộ mã chuẩn quốc tế được thiết kế để dùng làm bộ mã duy

nhất cho tất cả các ngôn ngữ khác nhau trên thế giới, kể cả các ngôn ngữ sử

dụng ký tự tượng hình phức tạp như tiếng Trung, tiếng Thái... Vì điểm ưu việt

đó, Unicode đã và đang từng bước thay thế các bộ mã truyền thống, kể cả bộ

mã tiêu chuẩn ISO 8859 và hiện đang được hỗ trợ trên rất nhiều phần mềm

cũng như các trình ứng dụng.

VISCII: (viết tắt của VIetnamese Standard Code for Information

Interchange trong tiếng Anh) là một bảng mã do nhóm Viet-Std đề xướng vào

năm 1992 dùng để gõ tiếng Việt. Bảng mã này thay thế các ký tự ít được dùng,

hay các ký tự được dùng trong các ngôn ngữ khác, bằng những ký tự chữ Quốc

4 https://vi.wikipedia.org/wiki/Bộ_gõ_tiếng_Việt

15

ngữ có dấu. VISCII trước đây được dùng trong nhiều hệ điều hành như MS-

DOS, Windows, Unix, Mac OS,...

TCVN3: Bảng mã theo tiêu chuẩn (cũ) của Việt Nam. Các font chữ trong

bảng mã này có tên bắt đầu bằng .Vn và mỗi font có hai loại thường và hoa

(font chữ hoa kết thúc bằng H). Ví dụ: .VnTime, .VNSouthernH. Ngày nay

TCVN đã quy định sử dụng font Unicode trong soạn thảo văn bản.

VNI: Bảng mã do công ty VNI (Vietnam-International) sở hữu bản quyền.

Các font chữ trong bảng mã VNI có tên bắt đầu bằng VNI-, ví dụ như VNI-

Times.

Unicode, TCVN3, VNI là ba bảng mã thông dụng nhất, ngoài ra còn có

các bảng mã như BK HCM, Vietware, VIQR,...

Tóm tại, những đặc điểm trên của tiếng Việt khiến cho việc xác định từ,

cụm từ, câu [4], [5], [6] trên máy tính là vấn đề khó, cần có nhiều nghiên cứu

thêm. Do vậy, tiền xử lý văn bản (tách từ, tách đoạn, tách câu…) trở nên rất

phức tạp với việc xử lý các hư từ, phụ từ, từ láy…; hơn nữa, phương thức ngữ

pháp chủ yếu là trật tự từ nên nếu áp dụng phương pháp tính xác suất xuất hiện

của từ có thể không chính xác như mong đợi. Mặt khác, ranh giới xác định từ

không phải là khoảng trắng, khiến cho việc tách từ trở nên khó khăn, dẫn đến

khó khăn cho các giai đoạn tiếp theo như kiểm lỗi chính tả, gán nhãn từ loại,

thống kê tần suất từ… Vì vậy, các phương pháp xử lý ngôn ngữ đang áp dụng

cho tiếng Anh không thể áp dụng trực tiếp cho tiếng Việt mà cần có sự thay đổi

cho phù hợp.

1.3.2. Một số hướng tiếp cận bài toán tóm tắt văn bản tiếng Việt

Tại Việt Nam hiện nay, lĩnh vực xử lý ngôn ngữ tự nhiên đã có được những

kết quả tốt trong phân tách từ, phân lớp và phân nhóm văn bản. Tuy nhiên, bài

toán tóm tắt văn bản chưa có nhiều nghiên cứu và đa phần các công trình nghiên

cứu đều sử dụng hoặc cải tiến các phương pháp dựa trên thống kê, cũng có một

16

số nghiên cứu có dựa trên ngữ nghĩa để nâng cao độ chính xác. Có thể kể đến

một số công trình nghiên cứu như:

Đỗ Phúc, Hoàng Kiếm [4] đã sử dụng cây hậu tố để phát hiện các dãy từ

phổ biến trong các câu của văn bản, dùng từ điển đồng nghĩa và WordNet tiếng

Việt để giải quyết vấn đề nghĩa của từ, rồi dùng kĩ thuật gom cụm để gom các

câu trong văn bản (vector đặc trưng cho câu) và hình thành các vector đặc trưng

cụm, sau đó rút ra câu chứa nhiều thành phần của các vector đặc trưng cụm.

Vương Toàn [7] đã đề xuất quy trình tóm tắt văn bản khoa học. Theo đó,

đầu tiên cho máy đọc lướt văn bản và tìm xem có sẵn những đoạn văn mang

tính chất “tóm tắt” hay không; tiếp theo là định chủ đề, xác định 4-5 tiêu đề, đề

mục hoặc từ khoá để máy tự động chọn lưu tất cả những câu có các từ khoá đó.

Nguyễn Trọng Phúc, Lê Thanh Hương [5] lại sử dụng cấu trúc diễn ngôn

để tóm tắt văn bản. Theo đó, xây dựng cây cấu trúc diễn ngôn biểu diễn mỗi

quan hệ diễn ngôn giữa các đoạn văn bản (như các quan hệ nhân-quả, liệt kê,

diễn giải,…), rồi từ cây cấu trúc diễn ngôn này đánh giá được độ quan trọng

của các đoạn văn bản và tiến hành trích xuất tạo ra bản tóm tắt.

Nói chung, có hai hướng để tóm tắt văn bản tự động được các nhà nghiên

cứu tập trung quan tâm: tóm tắt tóm lược và tóm tắt trích xuất. Nghiên cứu về

các phương pháp tóm lược tự động là một lĩnh vực nghiên cứu ngày càng quan

trọng và được quan tâm tích cực, tuy nhiên do các khó khăn phức tạp về xử lý

ngôn ngữ tự nhiên nên ở hướng nghiên cứu này chưa có được nhiều kết quả

khả quan so với hướng nghiên cứu tóm tắt dựa vào trích xuất. Những ứng dụng

thực tế dựa vào tóm tắt trích xuất ngày càng trở nên quan trọng và đa dạng. Vì

vậy, những nghiên cứu về tóm tắt văn bản tự động hiện nay tập trung chủ yếu

ở các phương pháp tóm tắt trích xuất.

17

1.3.3. Mô hình tóm tắt văn bản tiếng Việt dựa vào trích xuất câu

Về cơ bản, mô hình tóm tắt văn bản tiếng Việt dựa vào trích xuất câu thể

hiện trong hình 1.2. Nhìn chung, ở mỗi giai đoạn trong quá trình thực hiện sẽ

có những xử lý thích hợp đối với văn bản tiếng Việt.

Hình 1.2. Mô hình chung cho tóm tắt văn bản tiếng Việt dựa vào trích xuất câu

1.3.3.1. Tiền xử lý

Giai đoạn này nhằm chuẩn hoá văn bản về bảng mã, các lỗi chính tả, các

lỗi về dấu câu, v.v… sau đó, thực hiện tách từ, tách câu.

1.3.3.2. Biến đổi

Trong giai đoạn này có thể sử dụng các các phương pháp biến đổi văn bản

theo mô hình vector, mô hình đồ thị, mô hình cây. Khi đó mỗi câu trong văn

bản có thể được biểu diễn như là một vector, một đỉnh của đồ thị, hay một nút

trên cây (các phần tử trong mô hình biểu diễn).

Nhằm tăng cường tính chính xác trong việc xác định các câu quan trọng,

các phần tử trong mô hình biểu diễn có thể bổ sung thêm trọng số thông qua

việc xác định độ tương đồng ngữ nghĩa của từ, mức độ mạnh của các cấu trúc

của câu, hoặc một số đặc tính khác.

18

Ngoài ra đề giảm bớt sự phức tạp của mô hình, những từ, cụm từ ít giá trị

trong việc xác định thông tin như từ dừng, từ phổ biến cũng sẽ được loại bỏ ở

giai đoạn này.

1.3.3.3. Sinh văn bản

Căn cứ trên mô hình biến đổi văn bản của giai đoạn trước, các phương

pháp trích chọn câu quan trọng có thể được thực hiện qua các giải thuật như

gom cụm, duyệt đồ thị, duyệt cây,... quen thuộc.

1.4. Tổng kết chương

Chương này, luận văn đã trình bày một số vấn đề cơ bản để giải quyết bài

toán tóm tắt văn bản nói chung, tóm tắt văn bản tiếng Việt nói riêng; giới thiệu

mô hình chung cho tóm tắt văn bản tiếng Việt dựa vào trích xuất câu. Chương

tiếp theo, luận văn sẽ tập trung trình bày chi tiết phương pháp xác định độ tương

đồng ngữ nghĩa giữa hai câu dùng trong mô hình tóm tắt văn bản tiếng Việt.

19

Chương 2

PHƯƠNG PHÁP TÓM TẮT VĂN BẢN

DỰA TRÊN ĐỘ TƯƠNG ĐỒNG CÂU

2.1. Một số khái niệm và phương pháp tính độ tương đồng câu

2.1.1. Độ tương đồng

Độ đo (measure) là một khái niệm quan trọng trong toán học. Thông thường,

một độ đo nó là một hàm số cho tương ứng với một "chiều dài", một "thể tích"

hoặc một "xác suất" của một phần nào đó trong một tập hợp cho sẵn.

Ví dụ: độ đo định nghĩa bởi hàm µ(S) = số phần tử của S là độ đo dùng

để xác định số phần tử của một tập hợp.

Sự tương đồng (similarities) có thể xem như là một độ đo phản ánh mức

độ giống nhau giữa hai đối tượng hoặc hai đặc trưng.

Ví dụ: Trong hình học, các hình được coi là giống nhau nếu có cùng hình

dạng (đồng dạng) khi đó các hình vuông đều giống nhau; các hình tròn đều

giống nhau;...

Trong đời thường, sự giống nhau có thể chia ra thành các mức độ như khá

giống, rất giống,... Chẳng hạn người ta có thể nói: Cậu bé giống bố như tạc.

Trong toán học, độ tương đồng thường ở trong phạm vi từ -1 đến 1 hoặc 0 đến

1. Chẳng hạn sự đồng dạng của các hình đa giác có thể được đo bởi tỷ lệ giữa

các cặp cạnh tương ứng và rõ ràng hai hình đa giác được gọi là bằng nhau nếu

tỷ lệ giữa các cặp cạnh tương ứng bằng 1.

Như vậy, một độ đo tương đồng có thể coi là một loại hàm tính điểm

(scoring function) [8], [14], [15].

20

2.1.2. Độ tương đồng ngữ nghĩa và phương pháp trích xuất câu dựa

trên độ tương đồng ngữ nghĩa câu.

Độ tương đồng ngữ nghĩa là một độ đo thể hiện tỷ lệ dựa trên sự giống

nhau về nội dung ý nghĩa của các từ, các câu, các tài liệu.

Giả sử văn bản D được tạo thành bởi tập các câu {S1, ..., Sn} và tập các từ

{w1, w2, ..., wl}. Nếu hàm SimS là độ đo sự tương đồng ngữ nghĩa câu và hàm

Simw là độ đo tương đồng ngữ nghĩa của từ thì SimS(Si, Sj) là một giá trị phản

ánh sự đồng ngữ nghĩa của 2 câu Si, Sj và hàm Simw(wt, wk) là một giá trị phản

ánh sự tương đồng ngữ nghĩa của 2 từ wt, wk.

Thông thường SimS(Si, Sj) nằm trong đoạn [0, 1] hoặc [-1, 1]. Trên thực tế

khó có thể lấy giá trị chính xác tuyệt đối để đo sự đồng nghĩa của hai câu vì vậy

người ta thường chọn một giá trị cụ thể để xác định sự tương đồng ngữ nghĩa

câu. Nếu γ là ngưỡng xác định độ tương đồng và khi SimS(Si, Sj) >= γ thì có thể

coi Si và Sj là tương đồng ngữ nghĩa. γ thường được chọn thông qua thực nghiệm

[6], [8].

Gọi W(Si) là hàm xác định độ quan trọng của câu Si đối với văn bản D thì

W = W(Si) là một giá trị phản ánh mức độ quan trọng của câu Si đối với văn bản

D, khi đó giá trị W có thể coi là trọng số của câu Si.

Nếu xem độ tương đồng nghĩa giữa một câu với toàn văn bản là một tiêu

chí xác định độ quan trọng của câu thì một câu sẽ được coi là có độ quan trọng

cao (trọng số cao) nếu nó có độ tương đồng ngữ nghĩa lớn với toàn văn bản.

Khi đó ta có thể tính trọng số câu Si trong văn bản D theo công thức sau:

(2.1)

Quá trình trích xuất câu từ văn bản D để tạo bản tóm tắt có tỷ lệ nén α (α

tính theo công thức 1.1) có thể minh họa như sau:

Bước 1: Xác định mức độ quan trọng của các câu

Tính

21

Bước 2: Rút các câu quan trọng sinh bản tóm tắt

m = [n.α] // m: số câu trong bản tóm tắt; [n.α]: phần nguyên của n.α

là thuật toán hoặc hàm trích xuất câu từ tập các câu

dựa trên tập giá trị là các câu có .

trọng số cao nhất và không đồng ngữ nghĩa với nhau.

Dưới đây là một số phương pháp xây dựng hàm SimS(Si, Sj) tính độ tương

đồng ngữ nghĩa giữa hai câu.

2.1.3. Tính độ tương đồng theo độ đo Cosine

Trong phương pháp này, các câu sẽ được biểu diễn theo một mô hình

không gian vector. Mỗi thành phần trong vector chỉ đến một từ tương ứng trong

danh sách mục từ chính [19], [24]. Danh sách mục từ chính thu được từ quá

trình tiền xử lý văn bản đầu vào, các bước tiền xử lý gồm: tách câu, tách từ,

loại bỏ những câu, từ, ký tự không hợp lệ. Không gian vector có kích thước

bằng số mục từ trong danh sách mục từ chính.

Với không gian biểu diễn tài liệu được chọn là không gian vector xây dựng

dựa trên tần suất từ. Vector biểu diễn hai câu lần lượt có dạng:

với là tần suất của từ thứ k trong câu i

với là tần suất của từ thứ k trong câu j

Độ tương đồng giữa chúng được tính theo công thức:

(2.2)

SimF(Si, Sj) trong trường hợp này gọi là độ đo Cosine. Và có thể thấy hai

câu “đồng nghĩa” với nhau khi hai vector trùng nhau hay .

22

Ví dụ 2.1.3: xét văng bản D có hai câu S1 và S2 dưới đây

S1 = “Lươn ngắn thì chê trạch dài”

S2 = “Thờn bơn méo miệng chê trai lệch mồm”

Có thể vector hóa văn bản D và hai câu S1, S2 theo tần suất từ như sau

lươn ngắn thì chê trạch dài méo miệng trai lệch mồm

1 1 0 1 1 0 1 1 0 2 1 1 1 1 0 1 1 0 1 0 1 1 0 1 1 0 1 1 0 1 1 0 1 thờn bơn 1 0 1 D S1 S2

Khi đó

Ví dụ trên cho chúng ta thấy, vector biểu diễn cho các câu chưa xét đến

các quan hệ ngữ nghĩa giữa các mục từ, hoặc quan hệ ngữ nghĩa giữa các câu

nên kết quả đo độ tương đồng giữa các câu chưa tốt.

Như vậy, cần phải bổ sung thêm giá trị ngữ nghĩa khi tính độ tương tương

đồng giữa hai câu để tăng tính chính xác.

2.1.4. Phương pháp tính độ tương đồng câu dựa vào chủ đề ẩn

Ví dụ 2.1.4: Trở lại ví dụ 2.1.3, theo trực giác có thể thấy các từ trong văn

bản D có thể thuộc về các chủ đề như sau:

Chủ đề

CĐ3 Chê bai chê nói xấu dè bỉu CĐ4 Từ nối thì và cũng CĐ5 Miệng mồm miệng mỏ

CĐ1 Động vật thủy sinh lươn trạch thờn bơn trai CĐ2 Hình dạng ngắn dài méo lệch

Như vậy, có thể diễn đạt lại hai câu S1, S2 theo chủ đề như sau:

S1 = “CĐ1 CĐ2 CĐ4 CĐ3 CĐ1 CĐ2”

S2 = “CĐ1 CĐ2 CĐ5 CĐ3 CĐ1 CĐ2 CĐ5”

23

Vector hóa hai câu theo tần suất chủ đề ta có

S1 S2 CĐ1 2 2 CĐ2 2 2 CĐ3 1 1 CĐ4 1 0 CĐ5 0 2

Khi đó

Rõ ràng đây là kết quả tốt hơn so với kết quả được tính trong ví dụ 2.1.3.

Các chủ đề trong ví dụ 2.1.4 được gọi là các chủ đề ẩn (Hidden Topic).

Dễ thấy rằng hai câu càng có nhiều chủ đề ẩn chung và tần suất xuất hiện của

các chủ đề chung càng lớn thì chúng càng có độ tương đồng cao. Tuy nhiên,

việc xây dựng một tập hữu hạn các chủ đề bao phủ miền ứng dụng là một việc

làm khó khăn tương tự như việc xây dựng một kho ngữ liệu ngôn ngữ học đầy

đủ. Mô hình phân tích chủ đề ẩn LDA (Latent Dirichlet Allocation) giải quyết

khó khăn trên bằng cách giả định mỗi văn bản là sự pha trộn tập gồm K chủ đề

cho trước (K nguyên dương). Trong đó, mỗi chủ đề là một tập hợp của các từ

và mỗi có một tần suất xuất hiện trong một chủ đề.

Ý tưởng cơ bản của mô hình LDA là sử dụng một mô hình xác định phân

bố xác suất các chủ đề ẩn cho văn bản để từ đó xác định ngữ nghĩa một cách

chính xác hơn. Về lý thuyết, mô hình suy luận (Inference) LDA tốt được ước

lượng (Estimat) qua tập dữ liệu lớn và bao trùm miền ứng dụng được gọi là tập

dữ liệu tổng thể (Universal dataset) [10], [17]. Về bản chất thì quá trình ước

lượng có thể coi là quá trình học không giám sát.

Việc sử dụng mô hình LDA để suy luận chủ đề ẩn cho các câu hay cho

toàn văn bản cho phép xác định vector đặc trưng của chúng qua phân bố xác

suất của các chủ đề cụ thể đã được xác định ở quá trình ước lượng.

24

Giả sử chúng ta có mô hình suy luận chủ đề ẩn đã được ước lượng gồm K

chủ đề. Với đầu vào là một văn bản đơn, sau các bước tiền xử lý chúng ta thu

được một danh sách các câu (Hình 2.1).

Hình 2.1. Mô hình tính độ tương đồng câu với chủ đề ẩn

Suy luận (Inference) chủ đề cho các câu đã qua tiền xử lý, kết quả thu

được một danh sách các câu được vector hóa theo chủ đề ẩn có dạng như sau:

(2.3)

Ở đây, ; là phân bố xác suất (hay khả năng xuất hiện) của chủ

đề thứ k trong K chủ đề đã được phân tích. Sử dụng độ đo Cosine để tính độ

tương đồng giữa hai câu trong trường hợp này ta có:

(2.4)

25

Như vậy, có thể thấy vector của câu Si trong trường hợp này tương tự với

các vector chủ đề ẩn đã minh họa ở ví dụ 2.1.4. Chỉ có điều là các thành phần

của vector trong tường hợp này là phân bố xác suất của các chủ đề thay vì là

tần suất xuất hiện của chúng. Với việc sử dụng mô hình LDA chúng ta có thể

tin tưởng rằng các vector dạng 2.3 sẽ tiệm cận gần với vector xây dựng trong

ví dụ 2.1.4 khi có một mô hình suy luận chủ đề ẩn đủ mạnh. Phối hợp hai công

thức 2.2 và 2.4 chúng ta có một cách tính độ tương đồng câu theo tần suất từ

có bổ sung ngữ nghĩa qua việc xác định sự phân bố của các chủ đề ẩn:

(2.5)

Trong công thức trên, là hằng số trộn sẽ được chọn qua quá trình thực

nghiệm, thường . quyết định việc đóng góp giữa hai cách tính độ

tương đồng câu. Nếu , độ tương đồng giữa hai câu không có chủ đề ẩn.

Nếu , độ tương đồng giữa hai câu chỉ tính với chủ đề ẩn.

2.1.5. Phương pháp tính độ tương đồng câu dựa vào mạng Wikipedia

Wikipedia là một bách khoa toàn thư nội dung mở bằng nhiều ngôn ngữ

trên Internet. Wikipedia được viết và xây dựng do rất nhiều người dùng cùng

cộng tác với nhau. Kể từ khi được tạo ra vào năm năm 2001, Wikipedia đã phát

triển nhanh chóng thanh một trong nững trang web tham khảo lớn nhấn. Có

khoảng 71.000 người làm việc tích cực trên hơn 47.000.000 bài viết bằng 229

ngôn ngữ. Tính đến nay, có hơn 5.615.641 bài báo bằng tiếng Anh. Mỗi ngày

có hàng chục nghìn người từ khắp nơi trên thế giới cùng nhau thực hiện hàng

chục nghìn chỉnh sửa và tạo ra hàng nghìn bài báo mới tăng cường kiến thức

trên Wikipedia5.

Các trang thông tin của Wikipedia được lưu trữ trong một cấu trúc mạng.

Các từ (hoặc các khái niệm) liên quan với nhau về mặt ngữ nghĩa và các mục

5 https://en.wikipedia.org/wiki/Wikipedia:About

26

chủ đề (category) được tổ chức trong một cấu trúc phân cấp (taxonomy) được

gọi là đồ thị chủ đề Wikipedia (Wikipedia Category Graph - WCG) [21].

Đồ thị bài viết (Article graph): Giữa các bài viết của Wikipedia có các siêu

liên kết với nhau, các siêu liên kết này được tạo ra do quá trình chỉnh sửa bài

viết của người sử dụng. Nếu ta coi mỗi bài viết như là một nút và các liên kết

từ một bài viết đến các bài viết khác là các cạnh có hướng chạy từ một nút đến

các nút khác thì ta sẽ có một đồ thị có hướng liên kết các bài viết trên Wikipedia

(Xem minh họa phía bên phải của hình 2.2).

Đồ thị chủ đề (Category graph): Các chủ đề của Wikipedia được tổ chức

giống như cấu trúc của một taxonomy (phía bên trái của hình 2.2). Mỗi một chủ

đề có thể có một số lượng tùy ý các chủ đề con, mỗi một chủ đề con này thường

được xác định bằng mối quan hệ thượng hạ vị (Hyponymy) hay mối quan hệ

bộ phận tổng thể (Meronymy).

Hình 2.2. Mối quan hệ giữa đồ thị bài viết và đồ thị chủ đề Wikipedia

Ví dụ: Chủ đề “máy tính” có các chủ đề con là “số”, “logic”, “khoa học

máy tính”, “công nghệ thông tin”.

27

Do đó, đồ thị chủ đề (WCG) giống như là một mạng ngữ nghĩa giữa các

từ nên có thể xây dựng các độ đo sự đồng nghĩa giữa các từ tương tự như

Wordnet. Phương pháp tính độ tương đồng giữa các từ trong mạng ngữ nghĩa

Wikipedia tập trung vào việc áp dụng và cải tiến một số độ đo phổ biến về tính

độ tương đồng từ trên tập ngữ liệu Wordnet cho việc tính độ tương đồng giữa

các từ trên mạng ngữ nghĩa Wikipedia [18], [20], [21], [22],…

Do các giá trị của các độ đo tương đồng giữa các từ (hoặc các khái niệm) trên

Wikipedia đều không bị ràng buộc trong đoạn [0, 1], nên vào năm 2006, Li và

cộng sự đã đưa ra hai công thức cải tiến việc đo độ tương đồng từ mà không làm

mất tính đơn điệu [24].

Đối với độ đo PL (độ đo Path Length), f là một hàm đơn điệu giảm, nên:

(2.6)

l là hàm xác định khoảng cách ngắn nhất giữa hai từ trên đồ thị.

Đối với các độ đo khác, f là một hàm đơn điệu tăng, vì vậy:

(2.7)

h là hàm xác định độ đo của hai từ trên đồ thị.

Trong hai hàm số trên, α và β là hai tham số được chọn là α = 0.2 và β =

0.45. Sau khi tính được độ tương tự từ, ta đưa ra được vector ngữ nghĩa cho

mỗi câu [24]. Sự giống nhau về ngữ nghĩa giữa 2 câu được đo bởi độ đo Cosine:

(2.8)

Trong đó là những thành phần của các vector . Mỗi thành phần

được tính theo một trong hai

28

2.2. Mô hình tóm tắt văn bản tiếng Việt dựa trên trích xuất câu quan

trọng theo phương pháp tính độ tương đồng câu

Những nghiên cứu trên đây cho thấy muốn có một độ đo tương đồng ngữ

nghĩa tốt thì cần phải có một ngữ liệu ngôn ngữ học thể hiện được mối quan hệ

ngữ nghĩa giữa các từ, các khái niệm như Wordnet6 hoặc Brown Corpus7 hay

Wikipedia tiếng Đức. Ở Việt Nam những kho ngữ liệu như vậy chưa được xây

dựng hoàn chỉnh và cũng chưa có khảo sát chính thức cho Wikipedia tiếng Việt.

Vì vậy, học viên đã áp dụng kết quả nghiên cứu được trình bày tại mục 2.1.3,

2.1.4 để xây dựng mô hình tóm tắt văn bản tiếng Việt.

Dưới đây là mô hình tóm tắt văn bản tiếng Việt dựa vào trích xuất câu sử

dụng công thức (2.5) để tính độ tương đồng và trọng số câu.

Hình 2.3. Mô hình tóm tắt văn bản tiếng Việt

6 https://en.wikipedia.org/wiki/WordNet 7 https://en.wikipedia.org/wiki/Brown_Corpus

29

Mô hình gồm ba giai đoạn chính: tiền xử lý, tạo danh sách câu khả dụng

(xem 2.2.2) và sinh văn bản tóm tắt. Đầu vào là văn bản tiếng Việt mã hóa theo

bảng mã Unicode UTF-8. Đầu ra là bản tóm tắt theo tỷ lệ nén xác định.

2.2.1. Giai đoạn tiền xử lý

Tách từ, tách câu

Giai đoạn này thực hiện tách từ, tách câu theo ngữ pháp tiếng Việt. Sau

khi thực hiện các câu được phân biệt với nhau bởi dấu “.”; các từ phân cách

nhau bởi một ký tự trắng, các từ ghép có các từ đơn nối với nhau bởi dấu gạch

dưới (Hình 2.4).

Hình 2.4. Các câu sau khi tách trong cửa sổ nhỏ góc dưới bên trái

Module Tách từ, tách câu được xây dựng câu dựa trên mã nguồn mở

vnTokenizer của Lê Hồng Phương, Khoa Toán-Cơ-Tin học, Trường Đại học

Khoa học Tự nhiên, ĐHQG Hà Nội, Việt Nam.

Chuẩn hóa văn bản

Văn bản đưa vào xử lý được chuẩn hóa theo bảng mã Unicode UTF-8.

Học viên xây dựng module Chuẩn hóa văn bản để loại bỏ các từ dừng, ký hiệu

30

lạ, chuẩn hóa việc bỏ dấu, chuẩn hóa ký tự... nhằm giảm thiểu kích thước vector

đại diện câu trong giai đoạn sau (Hình 2.5).Ngoài ra, chương trình tóm tắt văn

bản thực nghiệm của luận văn còn có các module cho phép xác định ký tự vô

ích, module xác định từ dừng (Stop Word8) tự động và bằng tay cho phép xây

dựng danh mục ký tự vô ích, danh mục từ dừng một cách linh hoạt (Hình 2.6).

Hình 2.5. Văn bản sau khi chuẩn hóa

Hình 2.6. Xác định từ dừng và ký tự vô ích

8 https://en.wikipedia.org/wiki/Stop_words

31

Quá trình vector hóa văn bản và các câu theo tần suất từ và theo chủ đề ẩn

thực hiện như sau:

Input: D - văn bản gốc đã được tách từ, tách câu và chuẩn hóa

Output: vd, vsi; i = 1, 2, ..., m - Danh sách vector đại diện cho văn bản và

các câu theo tần suất từ

Phương pháp thực hiện:

// xác định số chiều (kích thước) của vector đại diện cho văn bản và các câu

// vl - danh sách các từ để tạo nên văn bản D

Lặp với i = 1 đến n thực hiện // n - tổng số từ trong văn bản D

Nếu thì add(vl, wi) // thêm từ wi vào vl

// vector hóa văn bản D theo tần suất từ

Khởi tạo vd // vd - danh sách có số phần tử bằng số phần tử của vl và

// mỗi phần tử có giá trị bằng 0

Lặp với i = 1 đến n thực hiện // n - tổng số từ trong văn bản D

j = post(vl, wi) // xác định vị trí từ wi trong vl; i = 1, 2, ..., n

dec(vd, j) // tăng vị trí thứ j của danh sách vd lên 1

// vector hóa các câu của văn bản D theo tần suất từ

Lặp với i = 1 đến m thực hiện // m - số câu của văn bản D

Khởi tạo vsi // vsi - danh sách có số phần tử bằng số phần tử của

// vl và mỗi phần tử có giá trị bằng 0; i = 1, 2, ..., m

Lặp với t = 1 đến s thực hiện // s - tổng số ký tự trong câu si

k = post(vl, wt) // xác định vị trí từ wt trong vl; t = 1, ..., n

dec(vsi, k) // tăng vị trí thứ k của danh sách vsi lên 1

Sau quá trình vector hóa như trên chúng ta thu được một danh sách vector

đại diện cho toàn văn bản và các câu theo tần suất từ (xem ví dụ 2.1.3).

32

Như đã phân tích tại mục 2.1.4, chúng ta tiếp tục vector hóa văn bản và

các câu theo phân tích chủ đề ẩn LDA qua công cụ JGibbsLDA9 của Phan Xuân

Hiếu, Graduate School of Information Sciences, Tohoku University và Nguyễn

Cẩm Tú, Đại học Công nghệ, Đại học Quốc gia Hà Nội. Kết quả thu được một

danh sách vector đại diện cho toàn văn bản và các câu theo chủ đề ẩn.

2.2.2. Giai tạo danh sách câu khả dụng

Ví dụ 2.2.2: Xét văn bản D như sau

S1 = “Trong đầm gì đẹp bằng sen”

S2 = “Lá xanh bông trắng lại chen nhụy vàng”

S3 = “Nhụy vàng bông trắng lá xanh”

S4 = “Gần bùn mà chẳng hôi tanh mùi bùn”

Trực quan có thể thấy hai câu S1 và S2 có độ tương đồng ngữ nghĩa rất cao,

do vậy, để việc tóm tắt văn bản đạt hiệu quả cao nhất thì cần phải loại những

câu đồng ngữ nghĩa ra khỏi danh sách các câu cần dùng để tóm tắt. Danh sách

các câu dùng để tạo bản tóm tắt theo ý nghĩa như vậy gọi là danh sách câu khả

dụng. Như vậy có thể hiểu:

Danh sách câu khả dụng là danh sách chứa các câu của văn bản gốc

không có sự tương đồng ngữ nghĩa (từng đôi một).

Quá trình tạo danh sách câu khả dụng

Giả sử văn bản gốc D có danh sách các câu là

Chi tiết quá trình tạo danh sách câu khả dụng như sau:

Input: S1, S2, ..., Sn - Các câu của văn bản D

VFD - Vector đại diện của văn bản theo tần suất từ

VFS1, VFS2, ..., VFSn - Vector đại diện các câu theo tần suất từ

VTD - Vector đại diện của văn bản theo chủ đề ẩn

9 http://jgibblda.sourceforge.net/

33

VTS1, VTS2, ..., VTSn - Vector đại diện các câu theo chủ đề ẩn

Output: StCoAvaiList - Danh sách câu khả dụng

Phương pháp thực hiện:

Lặp với i = 1 đến n thực hiện

Add(StCoAvaiList, Si) // thêm câu Si vào StCoAvaiList

Lặp với i = 1 đến n và thực hiện

Lặp với j = i + 1 đến n và thực hiện

Nếu thì Remove(Si, Sj)

// - tính theo công thức 2.5

// - ngưỡng tương đồng (chọn qua thực nghiệm);

// Remove(Si, Sj) - loại câu có trọng số thấp hơn ra

// khỏi StCoAvaiList

Dưới đây là kết quả thực nghiệm tạo danh sách câu khả dụng của văn bản

D trong ví dụ 2.2.2 theo phương pháp trên:

Với hằng số trộn và ngưỡng tương đồng

Trọng số các câu: ; ; ;

StCoAvaiList = {S1, S2, S3, S4}

Quá trình lặp tạo danh sách câu khả dụng như sau:

0,24878652865881926 Sim(S1, S2)

0,2750000000000004 Sim(S1, S3)

0,2630142022557633 Sim(S1, S4)

Sim(S2, S3) 0,8581649733015537 => S2 tương đồng ngữ nghĩa với S3

Remove(S2, S3) => StCoAvaiList = {S1, S2, S4}

0.2724075666220406 Sim(S3, S4)

Kết quả: StCoAvaiList = {S1, S2, S4}

34

Trong luận văn, trọng số câu là độ tương đồng ngữ nghĩa của câu với toàn

văn bản hay nói cách khác trọng số câu là mức độ hàm chứa nội dung văn bản

của câu. Do đó, trọng số của câu tính được tính theo công thức (2.5).

2.2.3. Giai đoạn sinh văn bản tóm tắt

Dựa trên danh sách câu khả dụng, thực hiện sắp xếp các câu theo độ quan

trọng (trọng số câu) từ lớn đến nhỏ rồi trích xuất lấy đủ số lượng câu để tạo văn

bản tóm tắt theo tỷ lệ nén xác định.

Ví dụ 2.2.3: Thực hiện tóm tắt văn bản ở ví dụ 2.2.2 theo tỷ lệ nén 50%

Sau khi tạo danh sách câu khả dụng như trong ví dụ 2.2.2, thực hiện sắp

xếp lại danh sách câu khả dụng theo trọng số giảm dần chúng ta có:

StCoAvaiList = {S2, S4, S1}

Bản tóm tắt theo tỷ lệ nén 50% sẽ có 2 câu:

S2 = “Lá xanh bông trắng lại chen nhụy vàng”

S4 = “Gần bùn mà chẳng hôi tanh mùi bùn”

Kết quả tóm tắt không thông qua danh sách câu khả dụng sẽ là:

S2 = “Lá xanh bông trắng lại chen nhụy vàng”

S3 = “Nhụy vàng bông trắng lá xanh”

Dễ thấy đây là kết quả không tốt bằng tóm tắt qua danh sách câu khả dụng.

2.3. Tổng kết chương

Chương này đã trình bày cụ thể khái niệm độ tương đồng ngữ nghĩa;

phương pháp xác định độ tương đồng ngữ nghĩa dựa trên suy luận chủ đề ẩn

LDA và phương pháp xác định độ tương đồng ngữ nghĩa dựa vào mạng

Wikipedia. Với lựa chọn xây dựng mô hình tóm tắt văn bản dựa vào trích xuất

câu theo suy luận chủ đề ẩn, luận văn đã trình bày chi tiết về mô hình tóm tắt

văn bản được cài đặt trên máy tính.

Chương tiếp theo, luận văn sẽ trình bày các thực nghiệm để chứng minh

tính khả thi và triển vọng của mô hình khi áp dụng vào thực tế.

35

Chương 3

THỰC NGHIỆM MÔ HÌNH TÓM TẮT VĂN BẢN TIẾNG VIỆT

3.1. Môi trường thực nghiệm

Máy tính có cấu hình:

Processor: Intel(R) Core(TM) i5-5200U CPU@ 2.20 GHz 2.20 GHz

RAM: 4,00 GB

Hệ điều hành: Windows 10 Pro @ 2016 Microsoft Corporation

Phần mềm lập trình: NetBeans IDE 8.1

Các công cụ phần mềm mã nguồn mở:

- vnTokenizer10 tách từ, tách câu trong văn bản tiếng Việt mã hóa bằng

bảng mã Unicode UTF-8

- JGibbsLDA xây dựng mô hình và suy luận chủ đề ẩn

Công cụ thực nghiệm: Chương trình tóm tắt văn bản do học viên viết.

3.2. Chương trình tóm tắt văn bản

Chương trình tóm tắt văn bản được viết bằng NetBeans IDE 8.1 có các

chức năng cơ bản cho soạn thảo, xây dựng mô hình suy lận chủ đề ẩn và tóm

tắt văn bản. Với giao diện đồ họa và mô tả chức năng dạng biểu tượng kết hợp

chú thích tiếng Việt nên chương trình rất dễ sử dụng. Dưới đây là các nhóm

chức năng chính của chương trình.

Nhóm các chức năng xử lý tệp thực hiện việc

chọn cơ sở dữ liệu tổng thể, thêm tệp dữ liệu (tệp văn bản đang mở) vào cơ sở

dữ liệu tổng thể, mở tệp văn bản, tạo mới tệp văn bản, ghi tệp đang mở, xóa tệp

và in tệp đang mở.

10 http://mim.hus.vnu.edu.vn/dsl/tools/tokenizer

36

Nhóm các chức năng soạn thảo

thực hiện các chức năng soạn thảo cơ bản: đánh dấu, lựa chọn vùng văn bản,

sao chép, cắt, dán, undo, redo, chọn font, chọn cỡ chữ, tìm kiếm chuỗi ký tự,...

Nhóm các chức năng xử lý dữ liệu thực hiện tách từ - tách câu, chuẩn

hóa văn bản, tóm tắt văn bản, xây dựng chủ đề ẩn , hiển thị danh sách câu -

trọng số, hiển thị ma trận dộ tương đồng câu,...

Chức năng đặt thông số dùng thay đổi các thông số của chương trình.

Giao diện của chương trình gồm thanh công cụ cung cấp các chức năng

phục vụ cho tóm tắt văn bản; Panel chứa các cửa sổ hiển thị văn bản gốc, kết

quả tách từ - tách câu và kết quả tóm tắt; Panel chứa các cửa sổ thể hiện kết quả

xử lý dữ liệu. Các cửa sổ trong mỗi Panel có thể thay đổi kích thước khá linh

hoạt giúp mở rộng diện tích quan sát kết quả.

Hình 3.1. Giao diện chương trình

37

3.3. Tiến hành thực nghiệm

3.3.1. Cơ sở dữ liệu tổng thể

Cơ sở dữ liệu tổng thể gồm 150 bài báo về lĩnh vực giáo dục trên các trang

vietnamnet.vn/vn, moet.gov.vn và tệp ngữ liệu VNESEcorpus2.txt11 chứa

khoảng 650.000 câu trích xuất từ khoảng 10.000 bài báo trên vietnamnet.vn,

dantri.com.vn, nhanhdan.com.vn...

3.3.2. Mô hình suy luận chủ đề ẩn

Sử dụng các chức năng “Tách từ - Tách câu”, “Chuẩn hóa văn bản”, “Xây

dựng chủ đề ẩn” của chương trình xử lý cơ sở dữ liệu tổng thể trong khoảng 22

giờ thu được mô hình suy luận chủ đề ẩn với 200 chủ đề gồm các tệp:

- wordmap.map: bản đồ từ gồm 113.865 mục từ.

- model-final.others: chứa các tham số sử dụng để suy luận theo LDA

- model-final.phi: chứa phân phối xác suất từ - chủ đề

- model-final.theta: chứa phân phối xác suất chủ đề - câu (hoặc văn bản)

- model-final.tassign: chứa các bài tập chủ đề (topic assignments) cho

những từ trong cơ sở dữ liệu huấn luyện

- model-final.twords: chứa phân phối xác suất của những từ có nhiều khả

năng xuất hiện trong từng chủ đề.

Hình 3.2 cho thấy các từ đặc trưng cho từng lĩnh vực có xu hướng tập

trung nhiều trong một số chủ đề. Vì vậy, sau quá trình suy luận chủ đề ẩn cho

từng câu, nếu hai câu chứa càng nhiều từ có xác suất xuất hiện cao trong cùng

một chủ đề thì càng có nhiều khả năng chủ đề đó sẽ cùng xuất hiện ở cả hai

câu. Nếu hai câu càng có nhiều chủ đề chung thì chúng càng có độ tương đồng

ngữ nghĩa cao.

Quá trình xử lý còn thu được tệp ký tự vô ích uselessChars.lst gồm 26 ký

tự và tệp từ dừng stopWords.lst gồm 1933 từ dùng để chuẩn hóa văn bản.

11 http://viet.jnlp.org/download-du-lieu-tu-vung-corpus

38

Hình 3.2. Các từ đặc trưng của lĩnh vực giáo dục có xác suất xuất hiện

cao ở chủ đề 83, 116, 136 trong mô hình suy luận chủ đề ẩn

3.3.3. Dữ liệu thực nghiệm

Dữ liệu thực nghiệm gồm 30 bài báo lấy trên các trang web vietnamnet.vn,

moet.gov.vn, nhandan.com.vn, vnexpress.net, tuoitre.vn chia thành 6 lĩnh vực là

giáo dục, khoa học, kinh doanh, thể thao, pháp luật, du lịch; mỗi lĩnh vực 5 bài.

3.3.4. Đánh giá độ chính xác của mô hình tóm tắt văn bản

3.3.4.1. Phương pháp đánh giá

So sánh kết quả tóm tắt của chương trình tóm tắt văn bản bằng phương

pháp tổ hợp - sử dụng công thức (2.5) và bằng phương pháp tần số từ - sử dụng

công thức (2.2) với kết quả tóm tắt của Microsoft Word 2003 (gọi chung là kết

quả tóm tắt do máy thực hiện) theo kết quả tóm tắt của chuyên gia.

39

Độ chính xác của kết quả tóm tắt do máy thực hiện tính theo công thức:

- số lượng câu do máy trích xuất trùng với kết quả trích xuất của

chuyên gia. - số lượng câu cần phải trích xuất. Các tiêu chí tóm tắt:

a - Bản tóm tắt có độ hàm chứa nội dung văn bản gốc cao nhất.

b - Mỗi câu trong văn bản tóm tắt là một câu trong văn bản gốc.

c - Các câu trong văn bản tóm tắt có sự tương đồng ngữ nghĩa thấp nhất.

d - Bản tóm tắt có tỷ lệ nén theo yêu cầu.

Chương trình tóm tắt văn bản sử dụng hai tham số là - ngưỡng tương

đồng giữa hai câu; - hằng số trộn trong công thức 2.5.

Qua thực nghiệm, và được chọn như sau:

- Đối với phương pháp tóm tắt theo tần số từ

- Đối với phương pháp tóm tắt theo công thức tổ hợp và

3.3.4.2. Đánh giá kết quả của mô hình tóm tắt văn bản

Minh họa kết quả tóm tắt một văn bản theo phương pháp tổ hợp

Tên văn bản gốc: “Công bố điểm thi THPT quốc gia năm 2018 vào ngày

11/7”12.

Tổng số câu trong văn bản gốc: 11

Tỷ lệ nén của bản tóm tắt: 30% => Số câu cần rút (trích xuất): 3

Thực hiện: sử dụng lần lượt các chức năng “Mở văn bản”; “Tách từ - Tách

câu”; “Chuẩn hóa văn vản”; “Tóm tắt văn bản” để tóm tắt văn bản.

Kết quả: bản tóm tắt theo cảm quan là đáp ứng yêu cầu (Hình 3.3).

12 http://vietnamnet.vn/vn/giao-duc/tuyen-sinh/cong-bo-diem-thi-thpt-quoc-gia-nam-2018-vao-ngay- 11-7-459910.html#inner-article

40

Nội dung các câu trong văn bản gốc

Câu số 1

2

3

4 5

6

7

8

9

10

11

Công bố điểm thi THPT quốc gia năm 2018 vào ngày 11/7 Bộ GD-ĐT cho biết các hội đồng thi sẽ công bố và thông báo kết quả thi THPT quốc gia năm 2018 cho thí sinh vào ngày 11/7. Theo quy chế của Bộ GD-ĐT, chậm nhất đến ngày 10/7, các Hội đồng thi xuất kết quả chấm thi từ phần mềm hỗ trợ chấm thi (do Bộ GD-ĐT cung cấp) gửi bảo đảm ở chế độ mật về Cục Quản lý chất lượng để cập nhật kết quả thi vào phần mềm quản lý thi. Cùng đó, phải hoàn thành việc đối sánh kết quả thi chậm nhất ngày 11/7. Sau đó, các Hội đồng thi công bố và thông báo kết quả cho thí sinh vào ngày 11/7. Điểm của bài thi tổ hợp là trung bình cộng điểm của các môn thi thành phần, quy về thang điểm 10, làm tròn đến 2 chữ số thập phân. Điểm của các bài thi độc lập và điểm của từng môn thi thành phần trong bài thi tổ hợp được quy về thang điểm 10, làm tròn đến 2 chữ số thập phân. Thí sinh băn khoăn, thắc mắc về điểm các bài thi của mình có thể gửi đơn phúc khảo kể từ ngày công bố kết quả thi, tức từ ngày 11/7 tại nơi đăng ký dự thi. Chậm nhất ngày 15/7, các sở GD-ĐT phải cập nhật danh sách thí sinh được công nhận tốt nghiệp THPT vào phần mềm quản lý thi. Các hội đồng thi sẽ công bố kết quả xét công nhận tốt nghiệp THPT tới các thí sinh chậm nhất ngày 17/7. Hiệu trưởng các trường THPT sẽ cấp giấy chứng nhận tốt nghiệp tạm thời, trả học bạ và các loại giấy chứng nhận (bản chính) cho thí sinh chậm nhất ngày 20/7.

Kết quả tóm tắt

Nội dung các câu trong bản tóm tắt

Câu trong văn bản gốc

2

8

9

Bộ GD-ĐT cho biết các hội đồng thi sẽ công bố và thông báo kết quả thi THPT quốc gia năm 2018 cho thí sinh vào ngày 11/7. Thí sinh băn khoăn, thắc mắc về điểm các bài thi của mình có thể gửi đơn phúc khảo kể từ ngày công bố kết quả thi, tức từ ngày 11/7 tại nơi đăng ký dự thi. Chậm nhất ngày 15/7, các sở GD-ĐT phải cập nhật danh sách thí sinh được công nhận tốt nghiệp THPT vào phần mềm quản lý thi.

Hình 3.3. Kết quả tóm tắt văn bản theo phương pháp tổ hợp với tỷ lệ nén 30%

41

Kết quả tóm tắt theo tỷ lệ nén 10%

Chương trình tóm tắt văn bản

Microsoft Word 2003

Theo P.Pháp tổ hợp

Theo tần số từ

Văn bản : Số câu

Chính xác

Chính xác

Chính xác

1/2 2/6 0/2 1/3 1/2

1 : 29 2 : 68 3 : 27 4 : 36 5 : 20 Độ chính xác trung bình

Nhóm văn bản thuộc chủ đề giáo dục 50% 33.3% 0% 33.3% 0% 27%

50% 33.3% 0% 33.3% 50% 33%

1/2 2/6 0/2 1/3 0/2

Rút 4 câu Rút 11 câu Rút 5 câu Rút 4 câu Rút 3 câu

# # # # # 0%

1/3 0/2 2/4 2/4 0/1

1 : 38 2 : 26 3 : 42 4 : 47 5 : 18 Độ chính xác trung bình

1/3 0/2 1/4 2/4 0/1

33.3% 0% 50% 50% 0% 27%

Rút 5 câu Rút 4 câu 1/4 Rút 5 câu 0/1

# # 25% # 0% 12.5%

1 : 26 2 : 10 3 : 53 4 : 25 5: 54

1/2 0/1 1/5 0/2 2/5

Độ chính xác trung bình

1/2 0/1 2/5 0/2 0/5

50% 0% 20% 0% 40% 22%

Rút 3 câu Rút 2 câu Rút 6 câu Rút 3 câu 0/5

# # # # 0% 0%

1/3 0/1 0/3 2/5 3/8

1 : 30 2 : 15 3 : 34 4 : 53 5 : 89 Độ chính xác trung bình

33.3% 0% 0% 40% 37.5% 32%

1/3 0/1 0/3 1/5 3/8

1/3 1/2 1/3 Rút 7 câu Rút 10 câu

33.3% 50% 33.3% # # 11.4%

1/2 0/2 0/1 2/5 1/3

1 : 21 2 : 21 3 : 17 4 : 58 5 : 38 Độ chính xác trung bình

50% 0% 0% 40% 33,3% 25%

1/2 0/2 0/1 1/5 1/3

1/2 0/2 0/1 Rút 6 câu Rút 5 câu

50% 0% 0% # # 16.7%

0/3 1/2 1/3 0/2 1/4

1 : 32 2 : 21 3 : 32 4 : 25 5 : 49 Độ chính xác trung bình Độ chính xác chung

Nhóm văn bản thuộc chủ đề kinh doanh 33.3% 0% 25% 50% 0% 22% Nhóm văn bản thuộc chủ đề Du lịch 50% 0% 40% 0% 0% 18% Nhóm văn bản thuộc chủ đề Khoa học 33.3% 0% 0% 20% 37.5% 18% Nhóm văn bản thuộc chủ đề Thể thao 50% 0% 0% 20% 33,3% 22% Nhóm văn bản thuộc chủ đề Pháp luật 33,3% 50% 33.3% 0% 50% 33% 26%

0% 50% 33.3% 0% 25% 22% 27%

1/3 1/2 1/3 0/2 2/4

Rút 5 câu Rút 3 câu Rút 4 câu Rút 3 câu Rút 5 câu

# # # # # 0% 15.4%

Bảng 3.1. Kết quả tóm tắt 6 nhóm văn bản theo tỷ lệ nén 10%

42

Kết quả tóm tắt theo tỷ lệ nén 20%

Chương trình tóm tắt văn bản

Microsoft Word 2003

Theo P.Pháp tổ hợp

Theo tần số từ

Văn bản : Số câu

Chính xác

Chính xác

Chính xác

4/5 9/13 3/5 5/7 3/4

1 : 29 2 : 68 3 : 27 4 : 36 5 : 20 Độ chính xác trung bình

Nhóm văn bản thuộc chủ đề giáo dục 60% 61.5% 60% 71.4% 50% 61%

80% 69.2% 60% 71.4% 75% 71.1%

3/5 8/13 3/5 5/7 2/4

2/5 Rút 16 câu Rút 8 câu 4/7 Rút 5 câu

40% # # 57.1% # 48.6%

6/7 3/5 5/8 6/9 2/3

1 : 38 2 : 26 3 : 42 4 : 47 5 : 18 Độ chính xác trung bình

5/7 3/5 6/8 6/9 2/3

85.7% 60% 62.5% 66.7% 66.7% 68.3%

Rút 8 câu Rút 6 câu Rút 9 câu Rút 10 câu Rút 2 câu

# # # # # 0%

2/4 1/2 8/10 2/5 4/10

1 : 26 2 : 10 3 : 53 4 : 25 5: 54 Độ chính xác trung bình

3/5 1/2 7/10 3/5 5/10

40% 50% 80% 40% 40% 50%

Rút 6 câu 1/2 Rút 13 câu Rút 6 câu 3/10

# 50% # # 30% 40%

4/6 2/3 4/6 8/10 12/17

1 : 30 2 : 15 3 : 34 4 : 53 5 : 89 Độ chính xác trung bình

66.7% 66.7% 66.7% 80% 70.5% 70.1%

4/6 2/3 4/6 7/10 12/17

Rút 7 câu 1/3 Rút 7 câu Rút 12 câu Rút 24 câu

# 33.3% # # # 33.3%

2/4 2/4 2/3 9/11 5/7

1 : 21 2 : 21 3 : 17 4 : 58 5 : 38 Độ chính xác trung bình

50% 50% 66.7% 81.8% 71,4% 64%

2/4 2/4 2/3 8/11 5/7

Rút 2 câu 1/4 Rút 1 câu 6/11 4/7

# 25% # 54.5% 57.1 45.5%

5/6 3/4 4/6 3/5 6/9

1 : 32 2 : 21 3 : 32 4 : 25 5 : 49 Độ chính xác trung bình Độ chính xác chung

Nhóm văn bản thuộc chủ đề kinh doanh 71.4% 60% 75% 66.7% 66.7% 68% Nhóm văn bản thuộc chủ đề Du lịch 60% 50% 70% 60% 50% 58% Nhóm văn bản thuộc chủ đề Khoa học 66.7% 66.7% 66.7% 70% 70.5% 68% Nhóm văn bản thuộc chủ đề Thể thao 50% 50% 66.7% 72.7% 71,4% 62.2% Nhóm văn bản thuộc chủ đề Pháp luật 66.7% 75% 66.7% 80% 77.8% 73% 65%

83.3% 75% 66.7% 60% 66.7% 70.3% 65.6%

4/6 3/4 4/6 4/5 7/9

Rút 8 câu 1/4 Rút 7 câu Rút 6 câu 5/9

# 25% # # 55.6% 40.3% 34.6%

Bảng 3.2. Kết quả tóm tắt 6 nhóm văn bản theo tỷ lệ nén 20%

43

Kết quả tóm tắt theo tỷ lệ nén 30%

Chương trình tóm tắt văn bản

Microsoft Word 2003

Theo P.Pháp tổ hợp

Theo tần số từ

Văn bản : Số câu

Chính xác

Chính xác

Chính xác

7/8 17/20 6/8 7/10 4/6

1 : 29 2 : 68 3 : 27 4 : 36 5 : 20 Độ chính xác trung bình

6/8 13/20 6/8 7/10 4/6

87.5% 85% 75% 70% 66.7% 76.8%

7/10 13/19 7/12 6/10 4/6

70% 68.4% 58.3% 60% 66.7% 64.7%

9/11 5/7 8/12 10/14 4/5

1 : 38 2 : 26 3 : 42 4 : 47 5 : 18 Độ chính xác trung bình

Nhóm văn bản thuộc chủ đề giáo dục 75% 65% 75% 70% 66.7% 71.3% Nhóm văn bản thuộc chủ đề kinh doanh 72.7% 57.1% 66.7% 64.3% 80% 68.2%

81.8% 71.4% 66.7% 71.4% 80% 74.3%

8/11 4/7 8/12 9/14 4/5

8/13 4/8 8/13 10/14 3/5

61.5% 50/% 61.5% 71.4 60% 60.9%

Nhóm văn bản thuộc chủ đề Du lịch

1 : 26 2 : 10 3 : 53 4 : 25 5: 54

4/7 2/3 13/15 4/7 11/16

Độ chính xác trung bình

4/7 2/3 11/15 5/7 11/16

57,1% 66.7% 86,7% 57,1% 68.8% 67.3%

6/9 3/5 12/18 5/7 12/16

66.7% 60% 66.7% 71.4% 75% 68%

7/9 3/4 8/10 11/15 20/26

1 : 30 2 : 15 3 : 34 4 : 53 5 : 89 Độ chính xác trung bình

7/9 3/4 7/10 12/15 20/26

77.8% 75% 80% 73.3% 76.9% 76.6%

6/9 3/5 6/9 12/16 17/24

66.7% 60% 66.7% 75% 70.8% 67.8%

5/6 4/6 3/5 14/17 8/11

1 : 21 2 : 21 3 : 17 4 : 58 5 : 38 Độ chính xác trung bình

83.3% 66.7% 60% 82.4% 72,7% 73%

4/6 4/6 3/5 13/17 8/11

1/2 2/5 2/4 12/17 8/13

50% 40% 50% 70.6% 61.5% 54.4%

7/9 4/6 7/9 5/7 11/14

1 : 32 2 : 21 3 : 32 4 : 25 5 : 49 Độ chính xác trung bình Độ chính xác chung

57,1% 66.7% 73.3% 71.4% 68.8% 67.5% Nhóm văn bản thuộc chủ đề Khoa học 77.8% 75% 70% 80% 76.9% 75.9% Nhóm văn bản thuộc chủ đề Thể thao 66.7% 66.7% 60% 76.5% 72,7% 68,5% Nhóm văn bản thuộc chủ đề Pháp luật 77.8% 66.7% 66.7% 71.4% 71.4% 70.8% 70.3%

77.8% 66.7% 77.8% 71.4% 78.6% 74.5% 73.7%

7/9 4/6 6/9 5/7 10/14

8/11 4/6 7/10 4/8 11/17

72.7% 66.7% 70% 50% 64.7% 64.8% 63,4%

Bảng 3.3. Kết quả tóm tắt 6 nhóm văn bản theo tỷ lệ nén 30%

44

Kết quả tóm tắt ở tỷ lệ nén 10% có độ chính xác khá thấp. Phương pháp

tổ hợp cho kết quả chung tốt nhất. Microsoft Word 2003 thường rút số câu vượt

quy định quá nhiều (nên không thể giá đúng tính chính xác).

Với tỷ lệ nén 20%, độ chính xác trong kết quả tóm tắt tăng rất mạnh so

với tỷ lệ nén 10%. Tóm tắt theo công thức tổ hợp cho kết quả tốt nhất. Microsoft

Word 2003 có kết quả tóm tắt khá yếu.

Với tỷ lệ nén 30%, kết quả tóm tắt có độ chính xác khá cao. Tóm tắt theo

công thức tổ hợp cho kết quả tốt nhất. Microsoft Word 2003 có kết quả thấp

nhất (chấp nhận kết quả tóm tắt vượt số câu quy định của Microsoft Word).

Hình 3.4 cho thấy tuy phương pháp tổ hợp có kết quả tóm tắt khá tốt nhưng

chưa mạnh hơn hẳn so với phương pháp tần số từ. Sở dĩ kết quả như vậy là do

sử dụng công thức 2.5 với hằng số trộn và ngưỡng tương đồng giữa hai

câu . Như vậy, nói chung kết quả tóm tắt vẫn phụ thuộc quá nhiều vào

tần suất từ (tới 70%).

80

70

60

50

PP tổ hợp

PP tần số từ

40

MS Word

30

20

10

0

Nén 10%

Nén 20%

Nén 30%

Hình 3.4. Độ chính xác của các phương pháp tóm tắt theo tỷ lệ nén

45

90

8

6

9

,

,

,

5

3

7

,

,

,

3

6 7

6 7

8

5 7

3

,

,

,

4 7

80

4 7

5

2

3 7

8

3 7

5

,

3

,

,

,

,

1 7

0 7

8

0 7

7

,

,

4

8 6

8 6

8 6

,

7 6

7 6

7 6

9

Giáo dục

,

4 6

4 6

70

3 6

0 6

4

,

Kinh doanh

4 5

60

Du lịch

50

Khoa học

40

Thể thao

30

Pháp luật

20

KQ chung

10

0

MS Word 2003

PP tổ hợp

PP tần số từ

Hình 3.5. Độ chính xác của các phương pháp tóm tắt ở tỷ lệ nén 30% đối với

một số lĩnh vực

Hình 3.5 cho thấy kết quả tóm tắt chưa thật sự ổn định trên tất cả các lĩnh

vực. Có thể thấy, do sử dụng 150 bài báo trong lĩnh vực giáo dục nên một số từ

đặc trưng của lĩnh vực này có xác suất xuất hiện cao ở chủ đề 83, 116, 136

(hình 3.2). Trong khi đó đối với các lĩnh vực khác dữ liệu chưa có sự phân loại.

Vì trong mô hình suy luận chủ đề ẩn LDA tổng phân bố xác suất của một từ

trên tập chủ đề bằng 1; tổng phân bố xác suất của các từ trên một chủ đề bằng 1;

tổng phân bố xác suất của các chủ đề trên một văn bản bằng 1. Như vậy, để có kết

quả tóm tắt theo suy luận chủ đề ẩn đạt hiệu quả cao cho một lĩnh vực cần phải:

- Thu thập một cơ sở dữ liệu tổng thể có đầy đủ các từ đặc trưng cho lĩnh

vực này và tần suất của các từ đặc trưng phải đủ lớn để chúng có xác suất xuất

hiện cao trong một hoặc một số chủ đề.

- Loại bỏ các ký tự vô ích, các từ vô ích (bao gồm cả các từ vô nghĩa và

các từ có thường xuyên xuất hiện ở mọi lĩnh vực) và các từ dừng ra khỏi cơ sở

dữ liệu tổng thể nhằm giảm kích thước cơ sở dữ liệu tổng thể và tăng hiệu quả

cho việc xác định phân bố xác suất của mỗi từ trong một chủ đề

46

Đánh giá chung

Kết quả thực nghiệm, có thể thấy mặc dù có vài trường hợp tóm tắt theo

phương pháp tổ hợp có kết quả chưa cao nhưng kết quả chung của phương pháp

này luôn tốt nhất ở mọi tỷ lệ nén.

Đối với nhóm văn bản trong lĩnh vực giáo dục, phương pháp tổ hợp cho

kết quả vượt trội. Trong khi đó, ở các lĩnh vực khác phương pháp này chưa thể

hiện rõ rệt sự hiệu quả; thậm chí còn có độ chính xác còn thấp nhất ở lĩnh vực

du lịch đối với tỷ lệ nén 30% (xem bảng 3.3 và hình 3.5). Mặt khác, phương

pháp tổ hợp cũng chưa cho kết quả ổn định trong quá trình thực nghiệm.

Nguyên nhân ở đây là do cơ sở dữ liệu tổng thể dùng để xây dựng mô hình chủ

đề ẩn chưa thật sự tốt (xem 3.3.1).

Theo cảm quan, đối với các tỷ lệ nén 20%, 30% bản tóm tắt của phương

pháp tổ hợp khá liền mạch (xem hình 3.1, 3.3).

3.4. Tổng kết chương

Trong chương này đã trình bày cụ thể về môi trường thực nghiệm; phương

pháp thực nghiệm và kết quả thực nghiệm. Kết quả thực nghiệm đã cho thấy

tóm tắt văn bản theo phương pháp tổ hợp được trình bày trong luận văn là một

hướng tiếp cận tốt.

47

KẾT LUẬN

Tóm tắt văn bản là bài toán khó và có nhiều ứng dụng trong thực tế. Những

kết quả nghiên cứu chính về tóm tắt đơn văn bản tiếng Việt được trình bày trong

luận văn là:

• Giới thiệu khái quát một số phương pháp tóm tắt văn bản phổ biến,

những vấn đề đặc thù đối với tóm tắt văn bản tiếng Việt và trình bày cụ thể mô

hình tóm tắt đơn văn bản tiếng Việt dựa vào trích xuất câu.

• Dựa vào những nghiên cứu về độ tương đồng ngữ nghĩa, luận văn đã

xây dựng một công thức tổ hợp đo độ tương đồng ngữ nghĩa dựa vào chủ đề ẩn

và phương pháp sử dụng công thức này để tóm tắt văn bản.

• Mô hình và chương trình tóm tắt đơn văn bản tiếng Việt được đánh giá

qua thực nghiệm cho thấy tính hiệu quả trong tóm tắt văn bản tiếng Việt và có

thể ứng dụng vào thực tế.

Những công việc trong tương lai:

• Nghiên cứu cải tiến mô hình, chương trình tóm tắt đơn văn bản tiếng

Việt để tăng tốc độ thực hiện và nâng cao chất lượng bản tóm tắt.

• Nghiên cứu xây dựng cơ sở dữ liệu tổng thể và mô hình suy luận chủ đề

ẩn hiệu quả cho phương pháp tính độ tương đồng dựa trên chủ đề ẩn.

• Nghiên cứu cải tiến phương pháp tính độ tương đồng ngữ nghĩa câu để

nâng hiệu suất của mô hình tóm tắt văn bản.

48

TÀI LIỆU THAM KHẢO

Tiếng Việt

1. Diệp Quang Ban (chủ biên), Hoàng Văn Thung (2008), Ngữ pháp tiếng Việt,

tập 1, Nxb Giáo dục, Hà Nội.

2. Diệp Quang Ban (2008), Ngữ pháp tiếng Việt, tập 2, Nxb Giáo dục, Hà Nội.

3. Hồ Trần Ngọc Oanh (2016), Ngữ pháp tiếng Việt,

http://nguvan.ued.udn.vn/?p=1958.

4. Đỗ Phúc, Hoàng Kiếm (2004), “Rút trích ý chính từ văn bản Tiếng Việt hỗ

trợ tạo tóm tắt nội dung”, Tạp chí Các công trình nghiên cứu –triển khai viễn

thông và công nghệ thông tin, số 13, tr. 59-63.

5. Nguyễn Trọng Phúc, Lê Thanh Hương (2010), “Tóm tắt văn bản tiếng Việt

sử dụng cấu trúc diễn ngôn”, The International Conference on Asian

Language Processing (IALP), Harbin, China, 2010.

6. Lê Quý Tài (2011), “Nghiên cứu các phương pháp xử lý tiếng việt ứng dụng

cho tóm tắt văn bản”, Luận văn thạc sỹ, Đại học Công nghệ - Đại học Quốc

gia Hà Nội.

7. Vương Toàn (2007), “Thử đề xuất quy trình tự động tóm tắt văn bản khoa

học”, http://www.glib.hcmus.edu.vn/bantin/bt107/bai3.pdf.

8. Trần Mai Vũ (2009), “Tóm tắt đa văn bản dựa vào trích xuất câu”, Luận

văn thạc sĩ, Đại học Công nghệ - Đại học Quốc gia Hà Nội.

Tiếng Anh

9. Daniel Marcu (1997), From Discourse Structures to Text Summaries, In

Proceedings of the ACL97/EACL97 Workshop on Intelligent Scalable Text

Summarization, Madrid, Spain, 1997, pp. 82–88.

49

10. Dipanjan Das, Andr´e F.T. Martins (2007), A Survey on Automatic Text

Summarization, https://www.cs.cmu.edu/~nasmith/LS2/das-martins.07.pdf,

November 21, 2007.

11. Dragomir R. Radev, Kathleen McKeown (2002), “Introduction to the

Special Issue on Summarization”, Computational Linguistics, Volume 28

(4), pp. 399-408.

12. Inderjeet Mani and Mark T. Maybury (eds) (1999), Advances in Automatic

Text Summarization, MIT Press, 1999.

13. Inderjeet Mani (2001), Automatic Summarization, John Benjamins

Publishing Co., 2001.

14. Inderjeet Mani (2001), “Summarization Evaluation: An Overview”, In:

Proceedings of the North American chapter of the Association for

Computational Linguistics (NAACL), Workshop on Automatic

Summarization, USA.

15. Jezek, K. and Steinberger, J. (2008) "Automatic Text Summarization (The

state of the art 2007 and new challenges)", Znalosti, FIIT STU Bratislava,

Slovakia, pp.1-12.

16. Morris, Jane and Hirst, Graeme, “Lexical cohesion, the thesaurus, and the

structure of text”, Computational linguistics, 17(1), March 1991, 21-48.

17. Phan Xuan Hieu, Susumu Horiguchi, Nguyen Le Minh (2008), Learning to

Classify Short and Sparse Text & Web with Hidden Topics from Large-scale

Data Collections, In The 17th International World Wide Web Conference,

2008.

18. Ponzetto, Simone Paolo, and Michael Strube (2007), Knowledge Derived

from Wikipedia For Computing Semantic Relatedness, Journal of Artificial

Intelligence Research, 30: 181-212, 2007.

50

19. Senellart and V. D. Blondel (2008), Automatic discovery of similar words,

Survey of Text Mining II: Clustering, Classification and Retrieval (M. W.

Berry and M. Castellanos, editors): 25–44, Springer-Verlag, January 2008.

20. Strube, M. & S. P. Ponzetto (2006), WikiRelate! Computing semantic

relatedness using Wikipedia, In Proc. of AAAI-06, 2006.

21. Torsten Zesch, Iryna Gurevych (2007), Analysis of the Wikipedia Category

Graph for NLP Applications, In Proc. of the TextGraphs-2 Workshop,

NAACL-HLT, 2007.

22. Torsten Zesch, Iryna Gurevych, and Max Muhlhauser (2007), Comparing

Wikipedia and German Word-net by Evaluating Semantic Relatedness on

Multiple Datasets, In Proceedings of NAACL-HLT, 2007.

23. Vishal Gupta, Gurpreet Singh Lehal (2010), “A Survey of Text

Summarization Extractive Techniques”, Journal of Emerging Technologies

in Web Intelligence, Vol 2, No 3 (2010).

24. Yuhua Li, David McLean, Zuhair Bandar, James O'Shea, Keeley A.

Crockett (2006), Sentence Similarity Based on Semantic Nets and Corpus

Statistics, IEEE transactions on knowledge and data engineering, vol. 18, no.

8, august 2006.