intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn Thạc sĩ Khoa học máy tính: Tóm tắt văn bản dựa vào trích xuất câu

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:57

18
lượt xem
4
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Đề tài “Tóm tắt văn bản dựa vào trích xuất câu” tập trung vào việc nghiên cứu, đánh giá và lựa chọn phương pháp xây dựng một mô hình tóm tắt văn bản tiếng Việt hiệu quả. Để hiểu rõ hơn mời các bạn cùng tham khảo nội dung chi tiết của luận văn này.

Chủ đề:
Lưu

Nội dung Text: Luận văn Thạc sĩ Khoa học máy tính: Tóm tắt văn bản dựa vào trích xuất câu

  1. ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NÔNG TIẾN CÔNG TÓM TẮT VĂN BẢN DỰA VÀO TRÍCH XUẤT CÂU LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH LẠNG SƠN, 2018
  2. ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NÔNG TIẾN CÔNG TÓM TẮT VĂN BẢN DỰA VÀO TRÍCH XUẤT CÂU Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: PGS-TS Đoàn Văn Ban LẠNG SƠN, 2018
  3. LỜI CAM ĐOAN Tôi xin cam đoan luận văn là sản phẩm nghiên cứu, tìm hiểu của cá nhân tôi. Những điều được trình bày trong luận văn hoặc là của cá nhân tôi hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có xuất xứ rõ ràng và được trích dẫn hợp pháp. Tôi xin hoàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan của mình. Lạng Sơn, tháng 4 năm 2018 TÁC GIẢ LUẬN VĂN Nông Tiến Công
  4. i MỤC LỤC MỤC LỤC .......................................................................................................... i DANH MỤC CÁC HÌNH ................................................................................ iii DANH MỤC CÁC BẢNG............................................................................... iv MỞ ĐẦU ........................................................................................................... 1 Chương 1 TÓM TẮT VĂN BẢN TIẾNG VIỆT .............................................. 2 1.1. Bài toán tóm tắt văn bản ................................................................. 2 1.1.1. Phân loại tóm tắt ....................................................................... 2 1.1.3. Mô hình tóm tắt văn bản và một số phương pháp tiếp cận ...... 5 1.2. Các phương pháp đánh giá ............................................................. 9 1.2.1. Các phương pháp đánh giá trong ........................................... 10 1.2.2. Các phương pháp đánh giá ngoài ........................................... 11 1.3. Tóm tắt văn bản tiếng Việt dựa vào trích xuất câu và một số vấn đề liên quan ........................................................................................ 12 1.3.1. Đặc điểm ngôn ngữ trong văn bản tiếng Việt......................... 12 1.3.2. Một số hướng tiếp cận bài toán tóm tắt văn bản tiếng Việt ... 15 1.3.3. Mô hình tóm tắt văn bản tiếng Việt dựa vào trích xuất câu ... 17 1.4. Tổng kết chương ........................................................................... 18 Chương 2 PHƯƠNG PHÁP TÓM TẮT VĂN BẢN DỰA TRÊN ĐỘ TƯƠNG ĐỒNG CÂU ........................................................................................ 19 2.1. Một số khái niệm và phương pháp tính độ tương đồng câu ......... 19 2.1.1. Độ tương đồng ........................................................................ 19
  5. ii 2.1.2. Độ tương đồng ngữ nghĩa và phương pháp trích xuất câu dựa trên độ tương đồng ngữ nghĩa câu. ........................................................... 20 2.1.3. Tính độ tương đồng theo độ đo Cosine .................................. 21 2.1.4. Phương pháp tính độ tương đồng câu dựa vào chủ đề ẩn ...... 22 2.1.5. Phương pháp tính độ tương đồng câu dựa vào mạng Wikipedia ................................................................................................................... 25 2.2. Mô hình tóm tắt văn bản tiếng Việt dựa trên trích xuất câu quan trọng theo phương pháp tính độ tương đồng câu .......................... 28 2.2.1. Giai đoạn tiền xử lý ................................................................ 29 2.2.2. Giai tạo danh sách câu khả dụng ............................................ 32 2.2.3. Giai đoạn sinh văn bản tóm tắt ............................................... 34 2.3. Tổng kết chương ........................................................................... 34 Chương 3 THỰC NGHIỆM MÔ HÌNH TÓM TẮT VĂN BẢN TIẾNG VIỆT ............................................................................................................. 35 3.1. Môi trường thực nghiệm ............................................................... 35 3.2. Chương trình tóm tắt văn bản ....................................................... 35 3.3. Tiến hành thực nghiệm ................................................................. 37 3.3.1. Cơ sở dữ liệu tổng thể ............................................................. 37 3.3.2. Mô hình suy luận chủ đề ẩn .................................................... 37 3.3.3. Dữ liệu thực nghiệm ............................................................... 38 3.3.4. Đánh giá độ chính xác của mô hình tóm tắt văn bản ............. 38 3.4. Tổng kết chương ........................................................................... 46 KẾT LUẬN ..................................................................................................... 47 TÀI LIỆU THAM KHẢO ............................................................................... 48
  6. iii DANH MỤC CÁC HÌNH Hình 1.1. Mô hình hệ thống tóm tắt văn bản [13] .................................... 5 Hình 1.2. Mô hình chung cho tóm tắt văn bản tiếng Việt dựa vào trích xuất câu.................................................................................................................... 17 Hình 2.1. Mô hình tính độ tương đồng câu với chủ đề ẩn ..................... 24 Hình 2.2. Mối quan hệ giữa đồ thị bài viết và đồ thị chủ đề Wikipedia 26 Hình 2.3. Mô hình tóm tắt văn bản tiếng Việt ........................................ 28 Hình 2.4. Các câu sau khi tách trong cửa sổ nhỏ góc dưới bên trái ....... 29 Hình 2.5. Văn bản sau khi chuẩn hóa ..................................................... 30 Hình 2.6. Xác định từ dừng và ký tự vô ích............................................ 30 Hình 3.1. Giao diện chương trình ........................................................... 36 Hình 3.2. Các từ đặc trưng của lĩnh vực giáo dục có xác suất xuất hiện cao ở chủ đề 83, 116, 136 trong mô hình suy luận chủ đề ẩn ............................... 38 Hình 3.3. Kết quả tóm tắt văn bản theo phương pháp tổ hợp với tỷ lệ nén 30%.................................................................................................................. 40 Hình 3.4. Độ chính xác của các phương pháp tóm tắt theo tỷ lệ nén ..... 44 Hình 3.5. Độ chính xác của các phương pháp tóm tắt ở tỷ lệ nén 30% đối với một số lĩnh vực .......................................................................................... 45
  7. iv DANH MỤC CÁC BẢNG Bảng 3.1. Kết quả tóm tắt 6 nhóm văn bản theo tỷ lệ nén 10%...................... 41 Bảng 3.2. Kết quả tóm tắt 6 nhóm văn bản theo tỷ lệ nén 20%...................... 42 Bảng 3.3. Kết quả tóm tắt 6 nhóm văn bản theo tỷ lệ nén 30%...................... 43
  8. 1 MỞ ĐẦU Với sự phát triển của công nghệ và Internet hiện nay, thông tin thời sự được cập nhật trên các Website với tốc độ vũ bão. Điều đó đã mang lại cho con người rất nhiều lợi ích thiết thực nhưng nó cũng khiến họ gặp phải không ít khó khăn khi sàng lọc lấy thông tin hữu ích từ nguồn dữ liệu khổng lồ ấy. Theo đánh giá của công ty Oracle1, hiện có đến 80% dữ liệu trên thế giới là dữ liệu văn bản. Vì vậy, việc tổ chức quản lý và khai thác hiệu quả nguồn dữ liệu này là những bài toán lớn cần được quan tâm nghiên cứu và giải quyết. Tóm tắt văn bản tự động nhằm nhanh chóng thu được những thông tin quan trọng, tăng hiệu quả xử lý thông tin là một trong các hướng tiếp cận khai thác dữ liệu văn bản nhận được sự quan tâm nghiên cứu của nhiều nhà khoa học, nhóm nghiên cứu cũng như các công ty lớn trên thế giới. Tóm tắt văn bản tự động có nhiều ứng dụng trong thực tế như: tóm tắt tin tức, tóm tắt kết quả tìm kiếm trong các máy tìm kiếm, tóm tắt hình ảnh, tóm tắt video,...2 Do những đặc thù của ngôn ngữ nên việc giải quyết bài toán tóm tắt văn bản tiếng Việt đặt ra cho các nhà nghiên cứu những thách thức, khó khăn riêng. Các kết quả khả quan từ những nghiên cứu về tóm tắt văn bản tiếng Việt được công bố hiện nay là cơ sở cho các dự án xây dựng hệ thống tóm tắt văn bản tiếng Việt tự động hiệu quả trong tương lai [4], [5], [6], [7], [8]. Với việc chọn đề tài “Tóm tắt văn bản dựa vào trích xuất câu”, luận văn trung vào việc nghiên cứu, đánh giá và lựa chọn phương pháp xây dựng một mô hình tóm tắt văn bản tiếng Việt hiệu quả. 1 http://www.oracle.com/technetwork/testcontent/9ir2text-bwp-f-129974.pdf 2 https://en.wikipedia.org/wiki/Automatic_summarization
  9. 2 Chương 1 TÓM TẮT VĂN BẢN TIẾNG VIỆT 1.1. Bài toán tóm tắt văn bản Theo Inderjeet Mani thì mục đích của tóm tắt văn bản tự động là: “Tóm tắt văn bản tự động nhằm mục đích trích xuất nội dung từ một nguồn thông tin và trình bày các nội dung quan trọng nhất cho người sử dụng theo một khuôn dạng súc tích và gây cảm xúc đối với người sử dụng hoặc một chương trình cần đến” [13]. Theo Radev: “Văn bản tóm tắt là văn bản được tạo từ một hoặc nhiều văn bản khác mà truyền tải được những thông tin quan trọng trong văn bản gốc nhưng có độ dài không quá một nửa văn bản gốc (thường ngắn hơn đáng kể)” [11]. Như vậy, tóm tắt văn bản là việc tìm các ý chính của văn bản. Bản tóm tắt là có ba đặc điểm sau [10], [11], [12], [13]: - Bảo toàn nội dung chính so với văn bản gốc: Các nội dung quan trọng hay nổi bật của bản gốc phải được giữ lại trong bản tóm tắt. - Ngắn ngọn: bản tóm tắt thường ngắn hơn bản gốc nhiều. - Dễ đọc: người sử dụng có thể đọc và hiểu được dễ dàng. Việc đưa ra được một bản tóm tắt có chất lượng và không bị giới hạn bởi miền ứng dụng được xác định là rất khó khăn nên các phương pháp giải quyết bài toán tóm tắt văn bản thường chỉ hướng đến một kiểu văn bản cụ thể hoặc một kiểu tóm tắt cụ thể. 1.1.1. Phân loại tóm tắt Có nhiều cách phân loại tóm tắt văn bản khác nhau, sau đây là một số cách phân loại tiêu biểu [13]: 1.1.1.1. Theo định dạng đầu ra - Tóm tắt trích xuất (Extract): là một bản tóm tắt gồm các đoạn văn bản được rút trích từ văn bản gốc.
  10. 3 - Tóm tắt tóm lược (Abstract): là một bản tóm tắt được tạo ra dựa trên các thông tin quan trọng trong văn bản gốc. 1.1.1.2. Theo mức độ xử lý - Tiếp cận mức ngoài (surface-level): thông tin được miêu tả dưới dạng khái niệm về các đặc trưng nông (shallow feature). Các đặc trưng nông bao gồm các thuật ngữ (term) quan trọng qua thống kê (dựa vào tần số của các thuật ngữ trong văn bản), các thuật ngữ quan trọng dựa vào vị trí, các thuật ngữ trong các cụm từ dấu hiệu hay các thuật ngữ trong câu truy vấn của người dùng. Kết quả là một bản tóm tắt dạng trích xuất (extract). - Tiếp cận mức sâu (deeper-level): ở mức này, bản tóm tắt có thể là dạng trích xuất hoặc dạng tóm tắt (abstract) và cần phải sử dụng đến sinh tổng hợp ngôn ngữ tự nhiên. Với dạng tiếp cận này, phải cần đến những phân tích về mặt ngữ nghĩa, chẳng hạn sử dụng hướng tiếp cận thực thể để xây dựng dạng biểu diễn của các thực thể văn bản (đơn vị văn bản) và mối quan hệ giữa các thực thể rồi từ đó tìm ra phần quan trọng. Mối quan hệ giữa các thực thể gồm quan hệ ngữ nghĩa như: đồng nghĩa, trái nghĩa, nghĩa hẹp, nghĩa rộng…, quan hệ cú pháp: dựa trên cây phân tích cú pháp và các mối quan hệ khác. 1.1.1.3. Theo mục đích của bản tóm tắt - Tóm tắt chỉ thị (Indicative): Đưa ra những thông tin ngắn gọn về chủ đề chính của văn bản. Dạng tóm tắt này thường được sử dụng trong các hệ thống tìm kiếm thông tin. Thông thường, độ dài của văn bản tóm tắt loại này chỉ từ 5 đến 10% độ dài của toàn bộ văn bản. - Tóm tắt thông tin (Information): tóm tắt bao gồm tất cả các thông tin nổi bật có trong văn bản nguồn tại nhiều mức độ chi tiết khác nhau. - Tóm tắt đánh giá (Evaluation): tóm tắt nhằm mục đích đánh giá vấn đề chính của văn bản nguồn, thể hiện quan điểm của tác giả đối với công việc của họ.
  11. 4 Việc phân loại tóm tắt dựa theo mục đích như trên không loại trừ lẫn nhau, có thể một bản tóm tắt vừa có chức năng cung cấp tin tức lại vừa là kiểu trình bày sơ lược. 1.1.1.4. Theo người dùng hoặc chủ đề - Tóm tắt chung (Generalized): tóm tắt nhằm mục đích đưa ra các nội dung quan trọng bao quát văn bản gốc. - Tóm tắt hướng truy vấn (Query-based): tóm tắt nhằm mục đích đưa ra kết quả dựa vào câu truy vấn của người. - Tóm tắt hướng đến người dùng hoặc chủ đề (User focused or Topic focused summaries): văn bản tóm tắt đáp ứng nhu cầu của người dùng cụ thể hoặc chủ đề cụ thể nào đó. 1.1.1.5. Theo số lượng văn bản đầu vào - Tóm tắt đơn văn bản: đầu vào là một văn bản - Tóm tắt đa văn bản: đầu vào là một tập văn bản 1.1.1.6. Theo ngôn ngữ - Tóm tắt đơn ngôn ngữ (Monolingual): Chỉ dựa trên một ngôn ngữ. - Tóm tắt đa ngôn ngữ (Multilingual): Thực hiện tóm tắt trên nhiều loại ngôn ngữ khác nhau. Cách phân loại trên chỉ mang tính tương đối, trên thực tế một bản tóm tắt có thể mang nhiều đặc trưng phân loại khác nhau. Ví dụ, bản tóm tắt tin tức trong chương trình điểm báo của đìa truyền hình Việt Nam có thể được xếp vào dạng tóm tắt chỉ thị, hoặc tóm tắt đa văn bản, hoặc tóm tắt phục vụ tìm kiếm,... 1.1.2. Một số thuật ngữ - Tỷ lệ nén (Compression Rate): là độ đo thể hiện bao nhiêu thông tin được cô đọng trong văn bản tóm tắt được tính bằng công thức: SummaryLength CompressionRate = SourceLength (1.1)
  12. 5 SummaryLength: Độ dài văn bản tóm tắt SourceLength: Độ dài văn bản nguồn - Độ nổi bật hay liên quan (Salience or Relevance): là trọng số được gán cho thông tin trong văn bản thể hiện độ quan trọng của thông tin đó đối với toàn văn bản hay để chỉ sự liên quan của thông tin đó đối với chương trình của người sử dụng. - Sự cố kết (độ mạch lạc - coherence): Một văn bản tóm tắt gọi là cố kết nếu tất cả các thành phần nằm trong nó tuân theo một thể thống nhất về mặt nội dung và không có sự trùng lặp giữa các thành phần. 1.1.3. Mô hình tóm tắt văn bản và một số phương pháp tiếp cận Hình 1.1. Mô hình hệ thống tóm tắt văn bản [13] Về cơ bản hệ thống tóm tắt văn bản tự động được chia thành 3 giai đoạn chính [13]: - Phân tích (Analysis or Interpretation): biểu diễn và hiểu văn bản nguồn - Biến đổi (Transformation): trích chọn những nội dung quan trọng
  13. 6 - Tổng hợp (Synthesis or Realization): tạo văn bản mới chứa những điểm chính, quan trọng của văn bản gốc. Trong mô hình trên, đầu vào của hệ thống có thể là một hoặc nhiều tài liệu, văn bản hay các thông tin đa phương tiện như ảnh, âm thanh, video. Những thông số chính được đề cập trong mô hình ảnh hưởng lớn đến hoạt động và chất lượng văn bản tóm tắt của hệ thống là: - Tỷ lệ nén: Tỷ lệ nén cảng thấp thì thông tin sẽ bị mất càng nhiều. - Mục đích tóm tắt: Cho đại chúng hay cho nhóm người dùng cụ thể. - Chức năng: Tóm tắt chỉ thị, tóm tắt thông tin, hay tóm tắt đánh giá - Độ mạch lạc: Văn bản tóm tắt cần diễn đạt câu từ liền mạch hay chỉ bao gồm các đoạn rời rạc. 1.1.3.1. Các phương pháp áp dụng trong pha phân tích Trong pha này, văn bản nguồn được phân tích để xác định các đơn vị ngữ liệu và các đặc trưng của chúng, kết quả của pha này là đầu vào cho pha biến đổi. Các phương pháp áp dụng trong pha này bao gồm: ➢ Phương pháp thống kê Các phương pháp thuộc loại này sử dụng các số liệu thống kê về độ quan trọng của các từ, cụm từ, câu hoặc đoạn văn. Các phương pháp thống kê gồm: - Dựa vào vị trí + Chủ đề, tiêu đề: tiêu đề hay chủ đề của các đoạn văn thường chứa các từ và ngữ quan trọng. + Câu ở đầu hoặc cuối đoạn: xác suất câu đầu đoạn hay câu cuối đoạn chứa ý chính của cả đoạn là rất lớn, đặc biệt là câu đầu đoạn. Ngoài ra các đoạn đầu và cuối văn bản cũng quan trọng hơn các đoạn giữa. + Minh hoạ, chú thích: trong các câu chú thích, câu minh hoạ cho ảnh hay đồ thị thường chứa các thông tin quan trọng.
  14. 7 - Dựa vào cụm từ dấu hiệu Các cụm từ dấu hiệu có đặc điểm thống kê rất tốt. Sau các cụm từ này thường là các từ hay câu quan trọng. Có hai loại cụm từ dấu hiệu: + Thứ nhất là các cụm từ mang ý nhấn mạnh, sau cụm từ này đoạn văn quan trọng; chẳng hạn “nói chung là”, “đặc biệt là”, “tóm lại”, “cuối cùng thì”, “trong bài viết này tôi muốn chỉ ra”, “bài viết nói về”, “nội dung gồm”... + Thứ hai là các cụm từ không quan trọng, sau cụm từ này là các thành phần không có nhiều giá trị trong việc tóm tắt, chẳng hạn: “hiếm khi mà”, “bài này không nói đến”, “không thể nào…” - Dựa vào thống kê tần suất từ: Độ quan trọng của từ phụ thuộc vào số lần xuất hiện của từ đó trong văn bản. Có thể dùng các kĩ thuật như tf-idf [23], tập thuật ngữ thường xuyên (frequent item set) để xác định tần suất từ. ➢ Phương pháp cấu trúc Các phương pháp này sử dụng các mối liên hệ cấu trúc - ngữ pháp - ngữ nghĩa để xác định các đơn vị ngữ liệu quan trọng. Tư tưởng chính của các phương pháp này là những đơn vị ngữ liệu nào có chứa các thành phần liên quan nhiều với các thành phần khác sẽ có mức độ quan trọng cao. Việc đánh giá các mối quan hệ sẽ dựa trên các mạng ngữ nghĩa hoặc các quan hệ cú pháp. - Phương pháp sử dụng quan hệ giữa câu, đoạn: Phương pháp này xác định mối quan hệ giữa các đoạn trong văn bản hay các câu trong đoạn với nhau thông qua việc tính toán mức độ liên quan giữa chúng. Các độ Cosine, Euclide, Jaccard… được chọn để xác định độ tương đồng giữa các câu hay đoạn văn bản đó. Sau đó, ta chọn ra đoạn hay câu có độ liên quan lớn nhất. - Phương pháp chuỗi từ vựng (lexical chains): Phương pháp liên kết từ vựng sử dụng các từ điển quan hệ từ vựng để xây dựng các chuỗi từ liên kết với nhau về mặt ngữ nghĩa. Sau khi xây dựng được chuỗi các từ vựng này, ta đánh giá độ mạnh của chúng và chọn ra những câu phù hợp. Chuỗi từ vựng
  15. 8 không những chỉ dùng trong tóm tắt văn bản mà còn được coi là lý thuyết tổng quát của vấn đề ngữ nghĩa trong xử lý ngôn ngữ tự nhiên [16]. - Phương pháp liên kết tham chiếu (word coreferences): Phương pháp này gọi là phương pháp trích chọn trùng lặp (anaphora-based method). Theo phương pháp này, các cụm trùng lặp được chọn ra, phân rã xem đâu là từ (cụm từ) tham chiếu và từ (cụm từ) được tham chiếu. Sau khi phân tách các cụm trùng lặp, chúng ta tạo chuỗi các từ (cụm từ) tham chiếu đến cùng một từ được tham chiếu. Chuỗi dài nhất sẽ được coi là trọng tâm của đoạn, các câu chứa các từ trong chuỗi này có một độ ưu tiên nào đó thì sẽ được chọn. Kết thúc pha phân tích sẽ là việc tổng hợp các chỉ số đánh giá độ quan trọng của các đơn vị ngữ liệu và thực hiện việc chọn các đơn vị ngữ liệu nào có độ quan trọng lớn làm đầu vào cho pha sau. Có thể nhận thấy các phương pháp thống kê dễ cài đặt hơn các phương pháp cấu trúc. Việc cài đặt các phương pháp thống kê đơn thuần chỉ là áp dụng các công thức toán học, còn để cài đặt các phương pháp cấu trúc thì lại cần thực hiện rất nhiều kĩ thuật về cấu trúc dữ liệu và thậm chí là các kĩ thuật trong lĩnh vực trí tuệ nhân tạo. Tuy nhiên trong nhiều trường hợp phương pháp cấu trúc cho kết quả tóm tắt tốt hơn các phương pháp thống kê. 1.1.3.2. Các phương pháp áp dụng trong pha biến đổi Pha biến đổi có nhiệm vụ biến đổi đơn vị ngữ liệu được trích xuất trong pha phân tích như cụm từ, câu, đoạn văn. Thông thường pha biến đổi thực hiện rút gọn bản thân bên trong một câu, rồi có thể rút gọn đoạn mà không gây ảnh hưởng đến độ chính xác. Các phương pháp trong pha biến đổi gồm [6]: ➢ Giản lược về cấu trúc câu Lược bỏ các thành phần thừa, ít mang ý nghĩa trong câu, giúp cấu trúc câu được thu gọn lại. Công việc này thường dựa trên phân tích cú pháp và phân tích ngữ nghĩa các thành phần trong câu. Áp dụng phân tích cú pháp chúng ta được các cấu trúc của câu, qua đó ta có thể thay thế thành phần bằng những thành
  16. 9 phần tương đương, ghép thành phần có nghĩa tương đương theo một luật nào đó. Phương pháp này có thể làm câu ngắn gọn hơn, tuy nhiên khó bảo toàn được văn phong. ➢ Giản lược về mặt ngữ nghĩa Thay thế hoặc loại bỏ các từ, cụm từ có ý nghĩa cụ thể bằng những từ, cụm từ ý nghĩa lúc này sẽ tổng quát, điển hình là: - Trừu trượng hoá khái niệm: thay thế các khái niệm cụ thể bằng khái niệm chung. - Thay thế ngữ (cụm từ - phrase) tương đương: thay thế các ngữ đóng vai trò như nhau trong câu bằng một ngữ chung. 1.1.3.3. Các phương pháp trong pha tổng hợp kết quả ➢ Phương pháp hiển thị phân đoạn Các đơn vị ngữ liệu được trích xuất hay giản lược từ các pha trước được liên kết lại thành đoạn theo đúng thứ tự trong văn bản gốc, không thêm bớt từ nối và cũng không sắp xếp lại. Văn bản kết quả của phương pháp này có độ dễ đọc và dễ hiểu kém, thậm chí lủng củng vì các đơn vị ngữ liệu có thể bị mập mờ tham chiếu, không có từ nối hoặc thừa từ. ➢ Phương pháp hiển thị liên kết Với phương pháp này, ta sẽ đưa thêm các thông tin bổ sung vào văn bản tóm tắt. Hai phương pháp thường được áp dụng là sử dụng mẫu (template) và ngữ liệu huấn luyện (corpus). Các phương pháp hiển thị phân đoạn dễ cài đặt và dễ áp dụng được trong thực tiễn hơn so với các phương pháp hiển thị liên kết vì không gặp phải những khó khăn do trong thiết kế mẫu hoặc xây dựng kho ngữ liệu huấn luyện. 1.2. Các phương pháp đánh giá Đánh giá một bản tóm tắt là một công việc khó bởi không tồn tại một bản tóm tắt lý tưởng cho một (hoặc một tập) văn bản đưa ra. Hơn nữa, việc đánh
  17. 10 giá nội dung tóm tắt cũng rất khó khăn. Trường hợp kết quả là một câu trả lời cho một câu hỏi, ta có thể xác định được câu trả lời đó đúng hay sai, nhưng trong các trường hợp khác, thật khó trả lời liệu đầu ra là phải một kết quả đúng hay không? Thực tế luôn có khả năng một hệ thống sinh ra một bản tóm tắt tốt nhưng lại sai khác với bản tóm tắt do người thực hiện. Bên cạnh đó, khi việc đánh giá được thực hiện bởi con người thì chi phí đánh giá sẽ rất cao. Mặt khác, tóm tắt văn bản còn liên quan đến tỉ lệ nén văn bản, do đó, việc đánh giá bản tóm tắt cần phải quan tâm đến vấn đề này, khi đó độ phức tạp và chi phí đánh giá sẽ tăng cao. Có nhiều kiểu đánh giá khác nhau tuỳ thuộc vào kiểu tóm tắt của hệ thống. Có thể là đánh giá trong (intrinsic) – tập trung vào chất lượng bản tóm tắt và đánh giá ngoài (extrinsic) – tập trung vào nhiệm vụ [14]. Các tiêu chí đánh giá: - Độ mạch lạc (sự cố kết - coherence): đánh giá mức độ rõ ràng của văn bản tóm tắt, tính súc tích, khả năng có thể đọc và hiểu được của bài viết… - Độ hàm chứa thông tin (Informationess): tỉ lệ thông tin của văn bản gốc trong văn bản tóm tắt. - Độ liên quan (Relevance): xác định mức độ phù hợp của văn bản tóm tắt với chủ đề cho trước (chủ đề có thể là một câu truy vấn). - Độ dễ đọc hiểu (Reading Comprehence): một người được giao việc đọc văn bản kết quả, sau đó trả lời các câu hỏi, hệ thống sẽ phải cho điểm và từ đó đưa ra phần trăm những câu trả lời đúng. 1.2.1. Các phương pháp đánh giá trong 1.2.1.1. So sánh với văn bản tóm tắt khác Ý tưởng cơ bản của phương pháp này là đem văn bản do hệ thống tóm tắt so sánh với các bản tóm tắt khác (có thể do hệ thống tóm tắt khác thực hiện hoặc do con người thực hiện). Thông thường là đem so sánh với văn bản tóm
  18. 11 tắt do con người thực hiện. Việc so sánh giữa các bản tóm tắt này có thể do con người thực hiện hoặc có thể thực hiện tự động. Khi so sánh, có thể sử dụng một số độ đo sau: - Độ chính xác (Precision) và độ bao phủ (Recall). Tuy nhiên, 2 độ đo này chưa đủ để phân biệt các bản tóm tắt, các bản tóm tắt khác nội dung nhưng vẫn có cùng độ đo. - Độ đo hạng câu (Sentence Rank): thay thế cho độ bao phủ, khi đó, một bản tóm tắt được đặc trưng bởi hạng của các câu trong các bản tóm tắt thích hợp. Hạng của các câu trong bản tóm tắt do hệ thống thực hiện và trong các bản tóm tắt dùng để so sánh có thể tính bằng độ đo tương quan. Độ do này áp dụng đối với hệ thống tóm tắt dạng trích xuất. - Độ đo dựa trên nội dung (Content-Based): dựa trên sự tương tự về mặt từ vựng, và có thể áp dụng đối với cả 2 dạng tóm tắt. Tuy nhiên, độ đo này hữu dụng với các bản tóm tắt trích xuất, hoặc với các bản tóm tắt dạng abstract nhưng có mức độ cắt-dán cao (tức là văn bản tóm tắt được tạo bởi nhiều từ, cụm từ, câu nguyên dạng trong văn bản nguồn). 1.2.1.2. So sánh với văn bản nguồn Với phương pháp này, ta đem so sánh văn bản tóm tắt với văn bản nguồn để xác định mức độ hàm chứa thông tin của văn bản tóm tắt. Các độ đo dựa trên nội dung như trên có thể sử dụng để đánh giá. đã đưa ra phương pháp sử dụng thống kê để xác định mỗi thuật ngữ có phải là thuật ngữ trung tâm hay không phải thuật ngữ trung tâm. Tiếp đó, phân loại vào các nhóm chính xác (Correct), không chính xác (Incorrect) và thiếu (Missing) [14]. 1.2.2. Các phương pháp đánh giá ngoài Ý tưởng cơ bản của các phương pháp đánh giá ngoài là đánh giá tác dụng của bản tóm tắt với các nhiệm vụ khác nhau.
  19. 12 - Đánh giá mức độ liên quan (relevance): ý tưởng của phương pháp này là đưa ra một văn bản và một chủ đề, đánh giá xem mức độ liên quan của văn bản với chủ đề đó. - Đánh giá mức độ đọc hiểu: trước tiên, một người được đọc các văn bản tóm tắt từ một hoặc nhiều văn bản, sau đó trả lời các câu hỏi kiểm tra. Hệ thống tự động tính điểm các câu trả lời và đánh giá tỉ lệ trả lời đúng. Nếu bản tóm tắt cho phép trả lời các câu hỏi giống như khi đọc toàn bộ văn bản nguồn thì bản tóm tắt đó có khả năng cung cấp thông tin cao. Marcu [9] thực hiện đo mức độ cung cấp thông tin dựa trên việc người ta có thể khôi phục lại các thông tin quan trọng trong văn bản khi đọc bản tóm tắt của văn bản đó. Bằng thực nghiệm, tác giả tiến hành dựng lại văn bản gốc dựa trên việc đọc văn bản tóm tắt kết hợp phỏng đoán. 1.3. Tóm tắt văn bản tiếng Việt dựa vào trích xuất câu và một số vấn đề liên quan Bài toán tóm tắt văn bản tiếng Việt dự vào trích cuất câu có thể phát biểu như sau: “Tạo một bản tóm tắt với theo tỷ lệ xác định từ văn bản gốc bằng cách rút ra những câu quan trọng nhất. Ngôn ngữ trong văn bản gốc và văn bản tóm tắt là tiếng Việt”. Với những đặc thù riêng của ngôn ngữ, bài toán tóm tắt văn bản tiếng Việt có những vấn đề phức tạp phải cần giải quyết như: cấu trúc ngữ pháp, ngữ nghĩa, chính tả, bảng mã3,... [1], [2], [3], [6], [8] 1.3.1. Đặc điểm ngôn ngữ trong văn bản tiếng Việt 1.3.1.1. Đặc điểm ngôn ngữ Tiếng Việt là ngôn ngữ thuộc loại hình đơn lập, không biến hình từ và âm tiết [1], [2], [3], [6]. Đặc điểm này thể hiện rõ rệt ở tất cả các mặt ngữ âm, từ vựng, ngữ pháp. 3 https://vi.wikipedia.org/wiki/Bộ_gõ_tiếng_Việt
  20. 13 Về đặc điểm từ vựng: Mỗi tiếng, nói chung, là một yếu tố có nghĩa. Tiếng là đơn vị cơ sở của hệ thống các đơn vị có nghĩa của tiếng Việt. Từ tiếng, người ta tạo ra các đơn vị từ vựng khác để định danh sự vật, hiện tượng..., chủ yếu nhờ phương thức ghép và phương thức láy [1], [3], [6]. Theo cấu tạo, có thể phân loại từ trong tiếng Việt thành: Từ đơn: là từ chỉ chứa một tiếng. Ví dụ: học, trường, sách, sẽ, đang,... Từ ghép: là từ gồm 2 tiếng trở lên, như tàu xe, trường học, máy tính,... Do đó, đối với văn bản tiếng Việt không thể phân biệt các từ bằng khoảng trống như đối với văn bản tiếng Anh mà cần phải xử lý tách từ để xác định chính xác các từ cấu tạo nên từng câu hay toàn văn bản. Về đặc điểm ngữ pháp: Việc sắp xếp các từ theo một trật tự nhất định là cách chủ yếu để biểu thị các quan hệ cú pháp. Các phương thức ngữ pháp bên ngoài từ chủ yếu trong tiếng Việt là: trật tự từ, hư từ và ngữ điệu [2], [3], [6]. 1.3.1.2. Đặc điểm chính tả Đặc điểm chính tả tiếng Việt có ý nghĩa quan trọng tiền xử lý dữ liệu văn bản. Một số đặc điểm chính tả tiếng Việt cần quan tâm như: − Các tiếng đồng âm: như kĩ/kỹ, lí, lý,… thường bị sử dụng lẫn nhau như: lý luận, lí luận, kĩ thuật, kỹ thuật,… − Các từ địa phương: một số từ địa phương sử dụng thay cho các từ phổ thông, chẳng hạn: cây kiểng/cây cảnh, đờn/đàn, đậu phộng/lạc,… − Vị trí dấu thanh: theo quy định đánh dấu tiếng Việt, dấu được đặt trên nguyên âm có ưu tiên cao nhất. Tuy nhiên, khi viết văn bản nhiều bộ gõ văn bản không tuân thủ theo đúng nguyên tắc trên nên xảy ra hiện tượng dấu được đặt ở các vị trí khác nhau, chẳng hạn: toán, tóan, thuý, thúy,… − Cách viết hoa: theo quy định, chữ cái đầu câu và tên riêng phải viết hoa, tuy nhiên vẫn tồn tại một số cách viết tuỳ tiện.
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2