intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Tìm kiếm thông tin pháp luật tiếng Việt bằng truy vấn thông tin nhị phân

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:7

9
lượt xem
2
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết trình bày việc tìm kiếm thông tin pháp luật tiếng Việt bằng truy vấn thông tin nhị phân. Để khắc phục các vấn đề trên nhóm đã áp dụng phương pháp Boolean retrieval để hỗ trợ việc tìm kiếm pháp luật một cách nhanh và chính xác hơn.

Chủ đề:
Lưu

Nội dung Text: Tìm kiếm thông tin pháp luật tiếng Việt bằng truy vấn thông tin nhị phân

  1. TÌM KIẾM THÔNG TIN PHÁP LUẬT TIẾNG VIỆT BẰNG TRUY VẤN THÔNG TIN NHỊ PHÂN Nguyễn Tiến Dũng, Nguyễn Hoàng Long và Trương Triệu Thiên Khoa Công nghệ Thông tin, Trường Đại học Công Nghệ TP. Hồ Chí Minh GVHD: TS. Lê Thị Ngọc Thơ TÓM TẮT Hiện nay, khi xã hội càng trở nên tiên tiến và con người càng dễ dàng tiếp cận với những tri thức khoa học hiện đại thì việc tìm kiếm thông tin là một nhu cầu không thể thiếu. Pháp luật cũng chính là một trong những chủ đề được rất nhiều người quan tâm. Luật pháp được vận dụng ngày càng phổ biến trong đời sống do tính quan trọng đến các vấn đề về xã hội và quyền lợi. Do đó, các thông tin về pháp luật được mọi người tìm kiếm rất nhiều trên các trang mạng. Điều này có thể gây ra một số vấn đề như việc đưa sai thông tin pháp luật, kết quả trả về chưa phù hợp với mong muốn của người dùng. Để khắc phục các vấn đề trên nhóm đã áp dụng phương pháp Boolean retrieval để hỗ trợ việc tìm kiếm pháp luật một cách nhanh và chính xác hơn. Từ khóa: Boolean model, full text search, Information retrieval, retrieval models, truy hồi thông tin. 1. GIỚI THIỆU Hệ thống được tạo ra nhằm mục đích hỗ trợ người dùng tìm kiếm thông tin pháp luật một cách chính xác nhất có thể mà không cần hiểu biết nhiều về các từ khóa liên quan đến pháp luật. Khi sử dụng, người dùng chỉ cần nhập câu truy vấn thì hệ thống sẽ trả về một danh sách kết quả được cho là phù hợp nhất với câu truy vấn (ví dụ: khi tìm kiếm thông tin về “thiên tai Việt Nam” thì hệ thống sẽ trả về các thông tin pháp luật liên quan nhất đến thiên tai như: các công văn, quyết định về phòng chống thiên tai, cảnh báo về thiên tai, quản lý rủi ro thiên tai…). Hệ thống được nhóm xây dựng dựa trên thư viện Apache Lucene và dựa trên cơ sở lý thuyết của truy vấn thông tin nhị phân. Nhóm lựa chọn thư viện Lucene vì đây là thư viện hỗ trợ rất tốt cho một hệ thống truy hồi thông tin. Ngoài ra, các văn bản pháp luật là dữ liệu nội bộ nên không thể đánh chỉ mục bằng google nên Lucene là sự lựa chọn phù hợp. Tuy nhiên, Lucene được phát triển để hỗ trợ tìm kiếm thông tin bằng tiếng Anh nên nhóm thực hiện nghiên cứu việc áp dụng thư viện Lucene vào tiếng Việt. 2. PHƯƠNG PHÁP THỰC HIỆN Dưới đây là các bước thể hiện quy trình thực hiện khi xây dựng hệ thống: 101
  2. Hình 1: Quy trình cơ bản của hệ thống truy hồi thông tin [1]. Bước 1: Tìm kiếm, xây dựng bộ cơ sở dữ liệu về pháp luật dưới dạng json. Bước 2: Tiền xử lý dữ liệu: đây là một trong những bước quan trọng giúp văn bản gốc trở nên có cấu trúc hơn tạo thuận lợi cho hệ thống xử lý. Ở nghiên cứu này, nhóm đã thực hiện một số cách tiền xử lý như: chuẩn hóa từ (biến đổi tất cả các ký tự thành dạng viết thường, xóa dấu tiếng Việt), tách từ tiếng Việt (ví dụ: “thiên tai tại Việt Nam” sau khi tách sẽ là “thiên_tai tại Việt_Nam”), xóa hư từ (ví dụ: “thiên tai tại Việt Nam” sau khi loại bỏ hư từ sẽ là “thiên tai Việt Nam”). Trong phần này, nhóm đã sử dụng thư viện VNCoreNLP trên mã nguồn mở github [5] để hỗ trợ tách từ tiếng Việt. Bước 3: Lập chỉ mục dữ liệu: thư viện Lucene sẽ hỗ trợ phân tích các dữ liệu thành các token (token là một dãy các ký tự mang ý nghĩa cụ thể, biểu thị cho một đơn vị ngữ nghĩa trong xử lý ngôn ngữ). Bước 4: Phân tích, xử lý câu truy vấn: câu truy vấn cần được xử lý theo cùng cách thức với việc tiền xử lý dữ liệu gốc ở bước 2. Bên cạnh đó, nhóm đã thực nghiệm một số phương pháp mở rộng câu truy vấn như thêm từ đồng nghĩa, từ gần nghĩa vào câu truy vấn (nhóm sử dụng bộ từ đồng nghĩa vietnamese-wordnet của tác giả zeloru trên mã nguồn mở github [4]). Bước 5: Tìm kiếm: thư viện Apache Lucene sẽ tự động so khớp sự tương đồng giữa câu truy vấn đã được phân tích với các từ chỉ mục của cơ sở dữ liệu để tìm ra các kết quả phù hợp nhất dựa trên số lần xuất hiện của các từ chỉ mục trong câu truy vấn. Bước 6: Đánh giá hệ thống: hệ thống cần phải được đánh giá để xác định độ chính xác cũng như so sánh khả năng của các mô hình trong những trường hợp khác nhau. Có rất nhiều độ đo để đánh giá một hệ thống truy hồi thông tin. Ở đây nhóm dùng 3 bộ đo cơ bản thường được sử dụng là precision, recall, f-measure. Với công thức là: |{relavant docs} ∩ {retrieved docs}| |{relavant docs} ∩ {retrieved docs}| precision = |{retrieved docs}| recall = |{relavant docs}| 102
  3. precision * recall F-measure = 2* precision + recall Với relavant docs là kết quả trả về của một câu truy vấn phù hợp với mong muốn của người dùng (thường được dựa trên tệp dữ liệu được đánh dấu thủ công) và retrieved docs là kết quả trả về của một câu truy vấn mà hệ thống truy hồi thông tin đề xuất. 3. THỰC NGHIỆM: 3.1 Mô tả dữ liệu thực nghiệm Ở đây, nhóm sử dụng cơ sở dữ liệu gồm 2136 văn bản pháp luật được viết theo dạng json với các nội dung chính của một văn bản pháp luật là title (tiêu đề), description (miêu tả) và paragraph (nội dung). Dưới đây là cấu trúc một văn bản của cơ sở dữ liệu: { "url": "https://thuvienphapluat.vn/van-ban/Lao-dong-Tien...", "title": "QUYẾT ĐỊNH", "paragraph": [“Căn cứ Luật tổ chức Hội đồng nhân dân và…”], "description": "VỀ CHẾ ĐỘ PHỤ CẤP ĐỐI VỚI CÁN …", "DocID": "2143" } Bên cạnh đó, nhóm còn có một bộ dữ liệu kiểm thử được làm thủ công dùng để phục vụ việc đánh giá hệ thống được gồm 61 câu truy vấn cùng 5 kết quả trả về cho mỗi câu truy vấn. Dưới đây là cấu trúc của một hàng dữ liệu của bộ dữ liệu kiểm thử: 103
  4. { "query": "Điều kiện trở thành giảng viên", "result": [ "BAN HÀNH CHƯƠNG TRÌNH VÀ THỰC HIỆN BỒI DƯỠNG NGHIỆP …", "BAN HÀNH CHƯƠNG TRÌNH VÀ THỰC HIỆN BỒI DƯỠNG NGHIỆP …", "BAN HÀNH QUY CHẾ TỔ CHỨC VÀ HOẠT ĐỘNG CỦA TRUNG TÂM …", "…", "…"] } 3.2 Chạy thực nghiệm và so sánh Khi thực nghiệm, nhóm tiến hành chạy tìm kiếm cùng một câu truy vấn trên một số nền tảng khác nhau để có thể so sánh với hệ thống. Ở đây nhóm thực hiện tìm kiếm câu “thiên tai Việt Nam”: Bảng 1: So sánh kết quả của một số nền tảng Các nền tảng Lấy 5 kết quả đầu trả về _ Báo cáo đặc biệt của Việt Nam về quản lý rủi ro thiên tai và các hiện tượng cực đoan nhằm thúc đẩy thích ứng với biến đổi khí hậu _ Tóm tắt thiên tai Việt Nam từ đầu năm 2020 (tính đến ngày 23/7/2020) Google _ Tình hình thiên tai nước ta từ đầu năm 2021 đến nay (tính đến 28/4/2021) _ Năm 2021: Giảm kỷ lục về thiệt hại do thiên tai _ Giải pháp ứng phó thiên tai tại Việt Nam _ Quyết định 602/QĐ-UBND về Phương án Ứng phó với thiên tai theo cấp độ rủi ro thiên tai năm 2022 tỉnh Lào Cai Thư viện pháp luật _ Quyết định 106/QĐ-BNV năm 2021 về cho phép đổi tên Quỹ Xã hội - Từ thiện Công đoàn giao thông vận tải Việt Nam thành Quỹ Từ thiện Công đoàn giao thông vận tải Việt Nam và… 104
  5. _ Quyết định 747/QĐ-UBND năm 2021 phê duyệt Phương án ứng phó thiên tai theo cấp độ rủi ro thiên tai tỉnh Vĩnh Phúc _ Quyết định 1215/QĐ-BXD năm 2020 về Phương án ứng phó thiên tai theo các cấp độ rủi ro thiên tai của Bộ Xây dựng _ Quyết định 699/QĐ-UBND năm 2020 về phương án ứng phó thiên tai theo các cấp độ rủi ro thiên tai tỉnh Điện Biên _ Về tăng cường công tác phòng, chống thiên tai và tìm kiếm cứu nạn năm 2021 _ Quy định về dự báo, cảnh báo, truyền tin thiên tai và cấp độ rủi ro thiên tai Hệ thống truy hồi _ Phê duyệt đề án “nâng cao nhận thức cộng đồng và quản lý rủi ro thiên tai dựa vào thông tin cộng đồng, đến năm 2030” _ Ban hành quy chế hoạt động ứng phó sự cố tràn dầu _ V/v tập trung khắc phục hậu quả và ứng phó mưa lũ Từ những kết quả trên, nhóm nhận thấy còn một số vấn đề tồn tại trong công cụ tìm kiếm của các nền tảng pháp luật hiện nay là kết quả trả về chưa thực sự phù hợp với mục đích người dùng tìm kiếm hay cho ra một số kết quả người dùng không mong muốn (tìm kiếm “thiên tai Viêt Nam” nhưng lại trả về kết quả có nội dung liên qua đến “từ thiện”, “vận tải”) do phương pháp phân tích câu truy vấn chưa được tối ưu. Còn về nền tảng tìm kiếm google, đây là một nền tảng tìm kiếm tốt nhất thế giới tuy nhiên vì google phục vụ việc tìm kiếm dữ liệu tổng quát trên rất nhiều dữ liệu nên việc tìm kiếm cho miền dữ liệu hẹp (ở đây là về pháp luật) có thể đưa ra kết quả không như người dùng mong đợi. Còn về hệ thống, nhóm chỉ tập trung vào một miền dữ liệu đó là pháp luật và tối ưu độ chính xác dựa trên miền dữ liệu này nên có thể đáp ứng nhu cầu của người dùng tốt hơn. 3.3 Đánh giá kết quả thực nghiệm Thời gian trung bình của hệ thống khi lập chỉ mục là 2 phút, về việc tìm kiếm hệ thống thường phản hồi trong thời gian 0.5 mili giây. Dưới đây là thống kê độ chính xác của hệ thống trong một vài trường hợp khi hệ thống trả về 5 và 10 kết quả đầu tiên: Bảng 2: Kết quả đánh giá thực nghiệm. Các trường hợp khi dùng Apache Lucene Độ đo Top 5 Top 10 Precision 39.02% 26.23% Mặc định Recall 39.02% 52.46% 105
  6. F1 39.02% 34.97% Precision 39.02% 27.54% Tách từ tiếng Việt Recall 39.02% 55.08% F1 39.02% 36.72% Precision 38.69% 27.54% Tách từ tiếng Việt + xóa hư từ Recall 38.69% 55.08% F1 38.69% 36.72% Precision 39.67% 27.38% Tách từ tiếng Việt + xóa dấu tiếng Việt Recall 39.67% 54.75% F1 39.67% 36.50% Precision 31.80% 21.31% Tách từ tiếng Việt + xóa hư từ + thêm từ đồng nghĩa vào câu truy Recall 31.80% 42.62% vấn F1 31.80% 28.42% Qua bảng đánh giá, nhóm nhận thấy khi chỉ lấy 5 kết quả đầu tiên mà hệ thống trả về thì trường hợp có tiền xử lý dữ liệu (tách từ tiếng Việt + xóa dấu tiếng Việt) có độ chính xác cao nhất. Đối với khi lấy 10 kết quả đầu tiên trả về thì trường hợp có tiền xử lý dữ liệu (tách từ tiếng Việt + xóa hư từ) có độ chính xác cao nhất. Kết hợp giữa kết quả trên và thói quen hành vi của người dùng là hay chú ý đến các kết quả đầu tiên hơn nên nhóm quyết định dùng trường hợp có độ chính xác cao nhất khi lấy 5 kết quả đầu trả về. 4. ĐÁNH GIÁ, KẾT LUẬN Qua bài nghiên cứu khoa học, nhóm đã nhận ra tầm quan trọng của việc truy xuất thông tin và đã bước đầu tạo được hệ thống truy vấn thông tin pháp luật đạt được một vài yếu tố như: tăng tốc độ truy vấn, cải thiện độ chính xác. Tuy nhiên hệ thống vẫn còn các khuyết điểm như độ chính xác chưa ở mức quá cao và chưa thể tối ưu việc mở rộng kết quả truy vấn bằng từ đồng nghĩa do hiện tại không có các bộ từ đồng nghĩa phù hợp với dữ liệu của hệ thống. Từ những khuyết điểm đó, nhóm đang nghiên cứu các phương pháp tối ưu truy vấn khác như dùng từ đồng nghĩa ở bộ từ được phát triển riêng cho hệ thống, dùng từ gần nghĩa, xử lý từ đa nghĩa, phân tích ngữ nghĩa. Ở tương lai, nhóm sẽ tìm hiểu và thực nghiệm nhiều trường hợp, cách thức khác để tối ưu độ chính 106
  7. xác của hệ thống lên mức cao nhất có thể với mục tiêu đạt được độ chính xác trên 50% và áp dụng hệ thống này vào các bài toán thực tế. Tóm lại, nhóm nhận thấy việc tối ưu truy vấn thông tin là vô cùng cần thiết cho người dùng đặc biệt là ở chủ đề pháp luật. Như đã đề cập, khi xã hồi càng pháp triển thì nhu cầu tìm kiếm của mọi người càng tăng cao nên việc tối ưu độ chính xác cũng như tốc độ tìm kiếm sẽ tạo được trải nghiệm tốt cũng như hỗ trợ cho người dùng rất nhiều. 5. TÀI LIỆU THAM KHẢO [1] Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2008. [2] Baeza-Yates, Ricardo, Berthier Ribeiro-Neto, Modern Information Retrieval, AddisonWesley, 1999. [3] H. Dalianis, Evaluation Metrics and Evaluation, DSV-Stockholm University, Kista, Sweden, 2018. [4] zeloru, https://github.com/zeloru/vietnamese-wordnet. [5] Dat Quoc Nguyen, Thanh Vu, https://github.com/vncorenlp/VnCoreNLP. 107
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2