Rút trích từ khóa từ văn bản pháp luật Tiếng Việt bằng thuật toán TextRank

Chia sẻ: Sở Trí Tu | Ngày: | Loại File: PDF | Số trang:5

Thêm vào BST

Báo xấu

58
lượt xem 3
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Nghiên cứu này trình bày kết quả của việc rút trích từ khóa tự động từ văn bản pháp luật Tiếng Việt sử dụng thuật toán TextRank. TextRank là phương pháp rút trích từ khóa không giám sát từ văn bản dựa vào việc xếp hạng trên đồ thị. Văn bản sẽ được biểu diễn thành dạng đồ thị, với các từ là đỉnh và mối quan hệ lân cận giữa các từ là cạnh. Sau đó, các đỉnh trên đồ thị sẽ được xếp hạng dựa trên mối quan hệ với các đỉnh khác trong đồ thị. Mời các bạn cùng tham khảo!

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Rút trích từ khóa từ văn bản pháp luật Tiếng Việt bằng thuật toán TextRank

RÚT TRÍCH TỪ KHÓA TỪ VĂN BẢN PHÁP LUẬT TIẾNG VIỆT BẰNG THUẬT TOÁN TEXTRANK Lê Thị Ngọc Thơ Khoa Công nghệ Thông tin, trường Đại học Công nghệ TP. Hồ Chí Minh (HUTECH) TÓM TẮT Trong nghiên cứu này, chúng tôi trình bày kết quả của việc rút trích từ khóa tự động từ văn bản pháp luật Tiếng Việt sử dụng thuật toán TextRank. TextRank là phương pháp rút trích từ khóa không giám sát từ văn bản dựa vào việc xếp hạng trên đồ thị. Văn bản sẽ được biểu diễn thành dạng đồ thị, với các từ là đỉnh và mối quan hệ lân cận giữa các từ là cạnh. Sau đó, các đỉnh trên đồ thị sẽ được xếp hạng dựa trên mối quan hệ với các đỉnh khác trong đồ thị. Các từ ở đỉnh tương ứng có trọng số cao sẽ được trích ra và kết hợp với nhau thành từ khóa. Chúng tôi thực nghiệm thuật toán TextRank trên một chương của Luật Bảo hiểm Xã hội Việt Nam. Kết quả cao nhất thu được là 21.3% khi rút trích từ khóa tự động. Chúng tôi nhận thấy đặc điểm của từ khóa trong văn bản Tiếng Việt khá dài và chứa nhiều từ khác ngoài danh từ và tính từ. Do đó, một phương pháp khác cần được đề xuất để cải tiến hiệu suất của việc rút trích cụm từ khóa từ văn bản pháp luật Tiếng Việt. Từ khóa: Rút trích thông tin, TextRank, tiếng Việt, từ khóa, văn bản pháp luật. 1. GIỚI THIỆU Văn bản pháp luật thường được xem là dạng văn bản khó đọc vì đặc trưng vốn có nhiều thuật ngữ, cụm từ và câu được viết rất chặt chẽ nhằm diễn đạt các quy định của pháp luật. Các thuật ngữ trong văn bản pháp luật thường dài và câu trong văn bản pháp luật thường tham chiếu đến nội dung ở câu khác trong cùng văn bản hoặc đến văn bản pháp luật khác. Trong nghiên cứu này, chúng tôi áp dụng các phương pháp trong Xử lý Ngôn ngữ Tự nhiên (XLNNTN) vào văn bản pháp luật Tiếng Việt, nhằm hướng tới việc hỗ trợ cho người đọc có thể nhanh chóng nắm bắt được thông tin trong văn bản pháp luật. Cụ thể là, chúng tôi tiến hành rút trích từ khóa trong văn bản pháp luật tiếng Việt. Nói cách khác, đề tài này nhằm mục đích tìm phương pháp trích lọc những nội dung khái quát trong một văn bản pháp luật ở dạng từ khóa. Từ khóa là các từ chứa nội dung chính và quan trọng trong câu hoặc văn bản. Nhiệm vụ rút trích từ khóa tự động từ văn bản đóng vai trò quan trọng trong việc XLNNTN, chẳng hạn như áp dụng vào các ứng dụng đánh chỉ mục văn bản, truy vấn thông tin, tóm tắt văn bản tự động, hệ thống hỏi đáp tự động. Các nghiên cứu trước đây trong hướng XLNNTN đã có các phương pháp có giám sát [1] [2] và không giám sát [3] [4] [5] để rút trích từ khóa tự động trong văn bản. Chúng tôi quan tâm đến các phương pháp rút trích từ khóa không giám sát. Tuy nhiên, các phương pháp này phần lớn ban đầu đều được đề xuất cho Tiếng Anh. Bên cạnh đó, có nhiều nghiên cứu cải tiến từ các phương pháp này cho việc rút trích từ khóa từ các ngôn ngữ khác, như Tiếng Trung Quốc [6], Tiếng Nhật [7]. Trong đó, có một vài phương pháp được đề xuất riêng cho Tiếng Việt. Nguyen và Phan [8] đã để xuất rút trích từ khóa từ văn bản Tiếng Việt dựa trên ontology, phương pháp của nhóm tác giả được thực nghiệm trên dữ liệu Tiếng Việt dịch từ Tiếng Anh. Zhai và cộng sự [9] đã đề xuất phương pháp rút trích từ khóa song ngữ Trung-Việt dùng bằng cách biểu diễn các từ song ngữ trên siêu đồ thị và áp dụng thuật toán 205
khuếch tán có hướng (directional diffusion algorithm) để tính toán trọng số của các từ ứng viên. Bui [10] đề xuất dùng phương pháp học sâu để phân loại các cụm danh từ ứng viên thành từ khóa. Về tổng quan, các phương pháp rút trích từ khóa thường bao gồm hai bước chính: (1) chọn lựa ứng viên từ vựng cho từ khóa và (2) nối các ứng viên từ vựng dựa trên trật tự từ theo đúng ngữ pháp. Phần lớn các nghiên cứu tập trung vào bước (1) để tìm được càng nhiều từ vựng ứng viên càng tốt [4] [5]. Phương pháp chính để tìm từ vựng ứng viên là tìm cách gán trọng số chỉ sự quan trọng của từ trong đoạn văn bản và chọn lấy các từ có trọng số cao. Cụ thể, các phương pháp gán trọng số cho từ vựng là TF-IDF (Term Frequency – Inverse Document Frequency), xếp hạng dựa trên đồ thị từ vựng [4], và gom cụm [5]. Bên cạnh đó, cũng có nghiên cứu quan tâm đến trật tự từ vựng và loại từ vựng khi hình thành từ khóa hay cụm từ khóa từ các từ ứng viên [7]. Trong bài báo này, chúng tôi tìm cách tiếp cận bài toán rút trích từ khóa, tức là những từ hay cụm từ quan trọng, từ văn bản pháp luật bằng Tiếng Việt. Theo tìm hiểu của chúng tôi, chưa có nghiên cứu nào trước đây giải quyết bài toán này mặc dù đây là nhiệm vụ quan trọng trong việc đánh chỉ mục văn bản pháp luật nhằm phục vụ cho quá trình truy vấn thông tin văn bản pháp luật. Bên cạnh đó, việc rút trích từ khóa từ văn bản pháp luật còn hỗ trợ cho các hệ thống XLNNTN khác như hệ thống hỏi đáp thông tin pháp luật tự động. Do đó, chúng tôi tiếp cận bài toán rút trích từ khóa trong văn bản pháp luật Tiếng Việt bằng phương pháp phổ biến nhất là thuật toán TextRank. Chúng tôi tiến hành thực nghiệp nguyên bản thuật toán TextRank với các tham số khác nhau trên Chương 1 của Luật Bảo hiểm Xã hội Việt Nam ban hành năm 2006. Kết quả thực nghiệm tốt nhất là 21.3%. Từ kết quả này và phân tích các dạng từ khóa mà TextRank không thể rút trích được một cách tự động, chúng tôi nhận thấy cần có phương pháp cải tiến cho bài toán rút trích từ khóa trong văn bản Tiếng Việt. 2. PHƢƠNG PHÁP TIẾP CẬN Chúng tôi tiếp cận bài toán rút trích từ khóa dựa trên thuật toán TextRank [4], là thuật toán xếp hạng từ vựng ứng viên trên đồ thị bằng cơ chế lan truyền “bình chọn”. Khi một đỉnh của đồ thị có liên kết tới một đỉnh khác , ta nói rằng đỉnh “bình chọn” cho đỉnh . Ý tưởng chính của việc xếp hạng là đỉnh nhận được càng nhiều bình chọn càng quan trọng. Đồng thời, đỉnh nhận được sự bình chọn của đỉnh quan trọng cũng quan trọng. Nội dung chính của thuật toán TextRank bao gồm các bước như sau: Bƣớc 1: Biểu diễn văn bản thành đồ thị ( ). Trong đó, là tập hợp các đỉnh của đồ thị, mỗi đỉnh là một từ vựng, thường là các danh từ và tính từ. là tập hợp các cạnh biểu diễn mối quan hệ giữa các từ. Để tìm mối quan hệ giữa các cạnh, một cửa sổ trượt có kích thước được sử dụng để xác định các từ vựng lân cận. Nói cách khác, chúng ta áp cửa sổ trượt W lên văn bản, hai đỉnh của đồ thị có cạnh nối khi hai từ vựng tương ứng cùng nằm trong cửa sổ trượt. Bƣớc 2: Xếp hạng các đỉnh trên đồ thị dựa vào trọng số. Trọng số của đỉnh bất kỳ được xác định như sau: ( ) ( ) ∑ ( )∑ ( ). ( ) Trong đó, ( ) là tập hợp các đỉnh chỉ vào đỉnh , ( ) là tập hợp các đỉnh mà đỉnh chỉ đến, là trọng số của cạnh tương ứng với hai đỉnh và , là damping factor (tạm dịch: chỉ số giảm dần). Bƣớc 3: Lặp lại Bước 2 cho đến khi hội tụ, tức là sự thay đổi về trọng số của các đỉnh nhỏ hơn một ngưỡng rất bé, hoặc sau số lần lặp xác định. 206
Bƣớc 4: Rút trích từ khóa bằng cách chọn đỉnh có trọng số cao nhất trong đồ thị và kết hợp lại với nhau. Các từ ứng viên trong tập được kết hợp khi chúng nằm liền kề nhau trong văn bản đầu vào. 3. THỰC NGHIỆM VÀ ĐÁNH GIÁ Dữ liệu thực nghiệm là chương I của Bộ Luật Bảo hiểm Xã hội Việt Nam, được ban hành vào năm 2006, gồm tổng cộng 95 câu. Chúng tôi tiến hành rút trích thủ công từ khóa trong dữ liệu này để đánh giá, gồm 42 cụm từ khóa. Chúng tôi dùng công cụ VnCoreNLP [11] để tách từ và gán nhãn từ loại cho văn bản Tiếng Việt. Các từ được gán nhãn là danh từ và tính từ đều được đưa vào đỉnh của đồ thị. Chúng tôi xác định kích thước cửa sổ trượt để tìm mối liên hệ giữa các từ nằm trong đoạn , - Các tham số của thuật toán TextRank được thiết lập như sau: chỉ số damping factor , tỉ lệ đỉnh chứa từ vựng trong đồ thị được lấy lần lượt trong trong tập hợp * +, ngưỡng được xác định tương tự bài báo gốc 0.00001. Khi áp dụng thuật toán TextRank vào rút trích từ khóa với các tham số như trên vào văn bản Luật Bảo hiểm Xã hội, chúng tôi thu được kết quả như Bảng 2 ở trang sau. Từ bảng kết quả, chúng ta có thể thấy hiệu suất rút trích từ khóa bằng thuật toán TextRank trên văn bản pháp luật tiếng Việt ở mức trung bình là 20%, trong trường hợp tốt nhất chỉ là 21.3%. Đây chưa phải là kết quả khả quan để đưa vào ứng dụng trong thực tế. Khi xem xét chi tiết vào kết quả rút trích từ khóa, chúng tôi nhận thấy khá nhiều từ khóa trong văn bản pháp luật là các cụm từ phức, có chứa cả từ đơn có trọng số cao thấp không cùng nằm trong danh sách từ vựng ứng viên, và có thể chứa hư từ. Chẳng hạn các từ khóa trong Bảng 1. Bảng 1. Ví dụ về các từ khóa mà TextRank không tự động rút trích được Từ khóa Lý do không rút trích đƣợc người sử dụng lao động tham gia bảo hiểm thất Động từ “tham gia” đã bị loại từ bước xây dựng nghiệp đồ thị cơ quan, tổ chức tham gia bảo hiểm xã hội Dấu phẩy được xem là hư từ và bị loại từ bước xây dựng đồ thị mức thu nhập Từ “mức” có trọng số thấp sau khi xếp hạng Bảng 2. Kết quả rút trích từ khóa từ văn bản pháp luật Tiếng Việt dùng thuật toán TextRank # rút # P R F1 # rút # P R F1 W T W T trích đúng (%) (%) (%) trích đúng (%) (%) (%) 0.33 37 7 18.9 16.7 17.7 0.33 34 6 17.7 14.3 15.8 2 0.5 64 9 14.1 21.4 17.0 7 0.5 46 7 15.2 16.7 15.9 0.67 75 10 13.3 23.8 17.1 0.67 59 9 15.3 21.4 17.8 0.33 28 5 17.9 11.9 14.3 0.33 35 6 17.1 14.3 15.6 3 0.5 43 7 16.3 16.7 16.5 8 0.5 47 8 17.0 19.1 18.0 0.67 58 8 13.8 19.1 16.0 0.67 58 9 15.5 21.4 18.0 4 0.33 34 6 17.7 14.3 15.8 9 0.33 33 8 24.2 19.1 21.3 207
# rút # P R F1 # rút # P R F1 W T W T trích đúng (%) (%) (%) trích đúng (%) (%) (%) 0.5 46 8 17.4 19.1 18.2 0.5 47 9 19.2 21.4 20.2 0.67 61 8 13.1 19.1 15.5 0.67 59 10 17.0 23.8 19.8 0.33 35 6 17.1 14.3 15.6 0.33 35 7 20.0 16.7 18.2 5 0.5 44 8 18.2 19.1 18.6 10 0.5 47 8 17.0 19.1 18.0 0.67 55 9 16.4 21.4 18.6 0.67 59 9 15.3 21.4 17.8 0.33 35 7 20.0 16.7 18.2 6 0.5 49 7 14.3 16.7 15.4 0.67 55 8 14.6 19.1 16.5 Từ kết quả và quan sát trên, chúng tôi nhận thấy cần thiết phải có sự cải tiến phương pháp rút trích từ khóa cho văn bản pháp luật Tiếng Việt nhằm đáp ứng nhu cầu thực tế, cụ thể là các ứng dụng có liên quan đến truy vấn thông tin hay hỏi đáp pháp luật tự động. Trong tương lai, chúng tôi dự kiến áp dụng các quy tắc ngữ pháp của Tiếng Việt để đưa vào các từ đơn ngoài danh từ và tính từ, cũng như xem xét các từ khóa có chứa hư từ. 4. KẾT LUẬN Trong bài báo này, chúng tôi trình bày kết quả của việc áp dụng thuật toán TextRank vào rút trích tự động từ khóa từ văn bản pháp luật Tiếng Việt. TextRank là phương pháp không giám sát nhằm rút trích từ khóa từ văn bản dựa trên phương pháp xếp hạng trên đồ thị. Dữ liệu thực nghiệm là một chương trong Bộ Luật Bảo hiểm Xã hội Việt Nam. Qua thực nghiệm, chúng tôi nhận thấy rằng việc áp dụng TextRank vào việc rút trích từ khóa trong văn bản pháp luật Tiếng Việt là chưa tốt và cần có phương pháp cải tiến. Trong tương lai, chúng tôi dự định áp dụng các quy tắc ngữ pháp của Tiếng Việt để đề xuất phương án khác cải tiến hiệu suất của việc rút trích từ khóa trong văn bản pháp luật Tiếng Việt. TÀI LIỆU THAM KHẢO [1] P. D. Turney, "Learning Algorithms for Keyphrase Extraction," J. Inform. Retrieval, vol. 2, pp. 303- 336, 2000. [2] Eibe Frank, Gordon W. Paynter, Ian H. Witten, Carl Gutwin, and Craig G. Nevill-Manning, "Domain-Specific Keyphrase Extraction," in Proc. 16th Int. Joint Conf. Artificial Intell., 1999. A. Hulth, "Improved automatic keyword extraction given more linguistic knowledge," in Proc. Conf. EMNLP-ACL ’03, 2003. [3] Rada Mihalcea and Paul Tarau, "TextRank: Bringing Order into Texts," in Proc. Conf. EMNLP- ACL ’04, 2004. [4] Zhiyuan Liu, Peng Li, Yabin Zheng, and Maosong Sun, "Clustering to find exemplar terms for keyphrase extraction," in Proc. Conf. EMNLP-ACL ’09, 2009. [5] Weiming Liang, Changning Huang, Mu Li and Bao-Liang Lu, "Extracting Keyphrases from Chinese News Articles Using TextRank and Query Log Knowledge," in Proc. PACLIC '09, 2009. [6] Tho Thi Ngoc Le, Minh Le Nguyen and Akira Shimazu, "Unsupervised Keyword Extraction for Japanese Legal Documents," in Proc. JURIX '13, 2013. 208
[7] Chau Q. Nguyen and Tuoi T. Phan, "An Ontology-based Approach for Key Phrase Extraction," in Proc. ACLShort '09, 2009. [8] Jiaxin Zhai, Shengxiang Gao, Zhengtao Yu, Zequan Fan, Li Liu, Hua Lai and Yafei Zhang, "Keywords extraction in Chinese-Vietnamese bilingual news based on hypergraph," Int. Jour. Distributed Sensor Networks, vol. 14, no. 11, 2018. [9] B. T. Hung, "Vietnamese Keyword Extraction Using Hybrid Deep Learning Methods," in Proc. NICS '18, 2018. [10] Thanh Vu, Dat Quoc Nguyen, Dai Quoc Nguyen, Mark Dras, Mark Johnson, "VnCoreNLP: A Vietnamese Natural Language Processing Toolkit," in Proc. Demo, NAACL 2018, 2018. ABSTRACT In this paper, we present the results of automatic keyphrase extraction from Vietnamese legal documents using TextRank algorithm. TextRank is an unsupervised keyphrase extraction approach based on graph ranking. Document is represented as a graph where vertices are words and edges are relations among words. Then, every vertex is ranked based on their relations with the other vertices in the graph. The words in corresponding vertices whose weights are high will be extracted and collapsed together to form keyphrase. We run TextRank on the Law on Social Insurance of Vietnam. The highest F-score is 21.3% for the performance of keyphrase extraction. We notice Vietnamese legal keyphrases include many words other than nouns and adjectives. Therefore, there are needs of improvements on the performance of keyphrase extraction on Vietnamese legal documents. Keywords: Information extraction, keyphrase, legal documents, TextRank, Vietnamese. 209