Luận văn Thạc sĩ Khoa học máy tính: Nghiên cứu các phương pháp tính toán độ tương tự của văn bản luật tiếng Việt

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:53

Thêm vào BST

Báo xấu

22
lượt xem 6
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận văn là “Nghiên cứu các phương pháp tính toán độ tương tự của văn bản luật tiếng Việt” nhằm nghiên cứu các phương pháp đo độ tương tự và thử nghiện các mô hình tính toán độ tương tự, từ đây đưa ra để xuất mô hình phù hợp nhất với miền dữ liệu văn bản luật tiếng Việt. Mời các bạn tham khao

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận văn Thạc sĩ Khoa học máy tính: Nghiên cứu các phương pháp tính toán độ tương tự của văn bản luật tiếng Việt

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN ĐÌNH MẠNH NGHIÊN CỨU CÁC PHƯƠNG PHÁP TÍNH TOÁN ĐỘ TƯƠNG TỰ CỦA VĂN BẢN LUẬT TIẾNG VIỆT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH HÀ NỘI, 12/2020
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN ĐÌNH MẠNH NGHIÊN CỨU CÁC PHƯƠNG PHÁP TÍNH TOÁN ĐỘ TƯƠNG TỰ CỦA VĂN BẢN LUẬT TIẾNG VIỆT Ngành: Khoa học máy tính Chuyên ngành: Khoa học máy tính Mã Số: 8480101.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN PHƯƠNG THÁI HÀ NỘI, 12/2020
MỤC LỤC MỤC LỤC....................................................................................................................... 3 LỜI CẢM ƠN ................................................................................................................. 6 LỜI CAM ĐOAN ........................................................................................................... 7 DANH MỤC KÝ HIỆU, VIẾT TẮT .............................................................................. 8 DANH MỤC CÁC BẢNG ............................................................................................. 9 DANH MỤC ĐỒ THỊ, HÌNH VẼ ................................................................................ 10 MỞ ĐẦU....................................................................................................................... 11 CHƯƠNG 1. GIỚI THIỆU ........................................................................................... 12 1.1. Lý do chọn đề tài ......................................................................................... 12 1.2. Mục đích đề tài ............................................................................................ 12 1.3. Đối tượng đề tài ........................................................................................... 13 1.4. Phương pháp nghiên cứu............................................................................. 13 CHƯƠNG 2. KIẾN THỨC NỀN TẢNG ..................................................................... 14 2.1. Đặc điểm của văn bản tiếng Việt ................................................................ 14 2.1.1. Cấu tạo từ tiếng Việt............................................................................. 14 2.1.2. Biến hình từ tiếng Việt ......................................................................... 15 2.1.3. Từ đồng nghĩa....................................................................................... 15 2.1.4. Đặc điểm chính tả ................................................................................. 15 2.2. Đặc điểm của văn bản Luật tiếng Việt ........................................................ 16 2.3. Sự khác nhau giữa văn bản tiếng Việt và văn bản luật tiếng Việt .............. 17 2.4. Tổng quan về bài toán đô độ tương tự văn bản ........................................... 17 2.4.1. Khái niệm về độ tương tự văn bản ....................................................... 17 2.4.2. Ứng dụng của bài toán đo độ tương tự giữa hai văn bản. .................... 18 2.5. Phương pháp dựa trên thống kê. ................................................................. 18
2.5.1. Khái niệm ............................................................................................. 18 2.5.2. Độ đo tương tự Jaccard ........................................................................ 19 2.5.3. Độ đo TF-IDF ....................................................................................... 19 2.6. Phương pháp dựa trên mạng nơron học sâu. ............................................... 19 2.6.1. Khái niệm học sâu ................................................................................ 19 2.6.2. Một số ứng dụng của học sâu (Deep Learning) ................................... 20 2.6.3. Một số phương pháp theo hướng tiếp cận học sâu ............................... 22 2.6.3.1. Mô hình biểu diễn từ bằng vector (Word2Vec). .................................. 22 2.6.3.2. Học chuyển (Transfer Learning) .......................................................... 29 CHƯƠNG 3. CÁC PHƯƠNG PHÁP ĐO ĐỘ TƯƠNG TỰ GIỮA CÁC VĂN BẢN 33 3.1. Tiền xử lý dữ liệu ........................................................................................ 33 3.2. Vector hóa văn bản và tính độ tương tự văn bản ........................................ 33 3.2.1. Mộ số phương pháp theo tiếp cận thống kê ......................................... 33 3.2.2. Phương pháp học sâu ............................................................................ 38 3.2.2.1. Sử dụng Word2Vec .............................................................................. 38 3.2.2.2. Học biểu diễn vector cho các văn bản .................................................. 39 3.2.2.3. Áp dụng học chuyển (transfer learning) để tăng chất lượng vector biểu diễn văn bản ............................................................................................................. 40 3.3. Đánh giá mô hình ........................................................................................ 40 CHƯƠNG 4. THỰC NGHIỆM VÀ KẾT QUẢ ........................................................... 42 4.1. Môi trường thực nghiệm và các công cụ sử dụng trong thực nghiệm ........ 42 4.2. Dữ liệu ......................................................................................................... 42 4.2.1. Thu thập dữ liệu.................................................................................... 42 4.2.2. Xử lý dữ liệu ......................................................................................... 43 4.3. Thực nghiệm ............................................................................................... 43 4
4.3.1. Thực nghiệm với Phương pháp Jacard ................................................. 44 4.3.2. Thực nghiệm với phương pháp TF-IDF ............................................... 44 4.3.3. Thực nghiệm với phương pháp Word2Vec .......................................... 44 4.3.4. Thực nghiệm với phương pháp Doc2Vec ............................................ 45 4.3.5. Phương pháp học chuyển ..................................................................... 45 4.4. Kết quả ........................................................................................................ 45 4.4.1. Đánh giá các phương pháp trên văn bản tiếng Anh ............................. 45 4.4.2. Đánh giá các phương pháp với truy vấn là 1 văn bản .......................... 45 4.4.3. Đánh giá các phương pháp với truy vấn là 1 đoạn văn ngắn. .............. 49 CHƯƠNG 5: KẾT LUẬN VÀ CÔNG VIỆC TRONG TƯƠNG LAI ......................... 51 5.1. Kết luận ....................................................................................................... 51 5.2. Công việc trong tương lai............................................................................ 51 TÀI LIỆU THAM KHẢO............................................................................................. 52 5
LỜI CẢM ƠN Tôi xin gửi lời cảm ơn đặc biệt tới PGS. TS Nguyễn Phương Thái, người đã định hướng đề tài và tận tình hướng dẫn chỉ bảo tôi trong suốt quá trình thực hiện Luận văn cao học này. Tôi xin chân thành cảm ơn các Thầy, các Cô trường Đại học Công nghệ, Đại học Quốc gia Hà Nội đã tận tình giảng dạy và truyền đạt những kiến thức, kinh nghịm quý báu trong suốt khóa học của tôi. Cuối cùng, tôi xin cảm ơn tới nhưng người thân, bạn bè luôn ở bên cạnh, động viên, chia sẻ cùng tôi trong quá trình học cao học cũng như quá trình thực hiện luận văn cao học. Xin chân thành cảm ơn! 6
LỜI CAM ĐOAN Tôi- Nguyễn Đình Mạnh – cam đoan luận văn này là công trình nghiên cứu của bản thân tôi dưới sự hướng dẫn và chỉ bảo của PGS. TS Nguyễn Phương Thái. Các kết quả nêu trong luận văn là trung thực và không sao chép toàn văn của bất kỳ công trình nào khác. Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan này. Hà Nội, ngày 16 tháng 12 năm 2020 7
DANH MỤC KÝ HIỆU, VIẾT TẮT Kí hiệu Giải thích CNTT Công Nghệ Thông Tin NLP Neuro – Linguistic – Programming RNN Recurrent Neural Network LSTM Long Short Term Memory networks PCFG Probabilistic Context Free Grammar AI Artificial intelligence DNN Deep Neural Network 8
DANH MỤC CÁC BẢNG Bảng 1: Biểu diễn văn bản theo TF.................................................................................... 35 Bảng 2:Biểu diễn văn bản theo IDF ................................................................................... 37 Bảng 3: Thống kê dữ liệu của văn bản luật ....................................................................... 43 Bảng 4: So sánh kết quả 2 phương pháp Word2Vec và Doc2Vec. .................................. 45 Bảng 5: Kết quả các phương pháp theo tiếp cận thống kê. ............................................... 46 Bảng 6: Kết quả các phương pháp theo tiếp cận học sâu. ................................................. 46 Bảng 7: Kết quả của các phương pháp học chuyển cải tiến và chưa có cải tiến ............... 47 Bảng 8: Kết quả các phương pháp theo tiếp cận thống kê và học sâu. .............................. 50 9
DANH MỤC ĐỒ THỊ, HÌNH VẼ Hình 2.1: Mô hình Word2Vec .......................................................................................... 23 Hình 2.2: Mô hình Skip-gram dạng tổng quát .................................................................. 23 Hình 2.3: Minh họa đầu vào và đầu ra của mô hình Skip-gram....................................... 24 Hình 2.4: Minh họa đầu vào và đầu ra của mô hình CBOW............................................ 25 Hình 2.5: Mô hình CBOW dạng tổng quát ....................................................................... 26 Hình 2.6: Mô hình học chuyển ......................................................................................... 29 10
MỞ ĐẦU Nghị quyết số 08-NQ/TW ngày 02/01/2002 của Bộ Chính trị về “Một số nhiệm vụ trọng tâm công tác tư pháp trong thời gian tới” và Nghị quyết số 49-NQ/TW ngày 02/06/2005 của Bộ Chính trị về “Chiến lược cải cách tư pháp đến năm 2020” đã đề ra các nhiệm vụ cải cách nền tư pháp của nước ta, trong đó có nhiệm vụ “đổi mới thủ tục hành chính trong cơ quan tư pháp tư pháp nhằm tạo điều kiện thuận lợi cho người dân tiếp cận công lý; … từng bước thực hiện việc công khai hóa các bản án…”. Thực hiện theo chỉ đạo này các văn bản Luật đã được số hóa và phổ biến đến người dân ngày một nhiều. Lãnh đạo ngành Tòa án cũng chỉ đạo sát sao việc ứng dụng CNTT để nâng cao hiệu quả công việc của ngành Tòa án, cụ thể là việc phần mềm Công khai bản án đã được ra đời cung cấp bản án tới người dân, để họ có thể tìm kiếm các bản án có trường hợp pháp lý tương tự trường hợp mình đang gặp phải. Họ có thể biết trược được kết quả của việc kiện tụng, khi đó thay vì phải đưa vụ việc ra Tòa thì một giải pháp khả thi hơn đó là hòa giải để 2 bên đều có lơi, cũng là giảm bớt áp lực công việc cho ngành Tòa án. Để làm được như vậy thì phần mềm cần phải hỗ trợ người dùng nhiều hơn nữa, không chỉ dừng lại ở việc tra cứu theo từ khóa cơ bản mà phải hỗ trợ việc tra cứu theo nội dung ngữ nghĩa của văn bản. Hiện nay, cũng có một vài công trình nghiên cứu để xuất các phương pháp khác nhau để xác định độ tương đồng của văn bản tiếng Việt song vẫn chiếm tỉ lệ khá khiêm tốn so với các công trình nghiên cứu trên văn bản tiếng Anh. Do đặc điểm của từ tiếng Việt cũng có nhiều điểm khác với tiếng Anh, đặc biệt là văn bản Luật tiếng Việt. Việc xử lý văn bản và xây dựng kho ngữ liệu chuẩn và đầy đủ là một thách thức lớn. Vì những lý do này, chúng tôi đã chọn đề tài luận văn là “Nghiên cứu các phương pháp tính toán độ tương tự của văn bản luật tiếng Việt” nhằm nghiên cứu các phương pháp đo độ tương tự và thử nghiện các mô hình tính toán độ tương tự, từ đây đưa ra để xuất mô hình phù hợp nhất với miền dữ liệu văn bản luật tiếng Việt. Nội dung luật văn gồm:  Chương 1. Giới thiệu tổng quan luận văn, mục đích và nội dung nghiên cứu.  Chương 2. Đưa ra một cái nhìn tổng quan về các kiến thức nền tảng trong bài toán đo độ tương tự giữa các văn bản.  Chương 3. Các phương pháp tính toán độ tương tự cho miền dữ liệu văn bản Luật tiếng Việt.  Chương 4. Thể hiện chi tiết về tập dữ liệu được sử dụng, các cài đặt cho thực nghiệm và kết quả của thực nghiệm.  Chương 5. Tóm tắt lại công việc của luận văn và đưa ra các công việc trong tương lai. 11
CHƯƠNG 1. GIỚI THIỆU 1.1. Lý do chọn đề tài Nghị quyết số 08-NQ/TW ngày 02/01/2002 của Bộ Chính trị về “Một số nhiệm vụ trọng tâm công tác tư pháp trong thời gian tới” và Nghị quyết số 49-NQ/TW ngày 02/06/2005 của Bộ Chính trị về “Chiến lược cải cách tư pháp đến năm 2020” đã đề ra các nhiệm vụ cải cách nền tư pháp của nước ta, trong đó có nhiệm vụ “đổi mới thủ tục hành chính trong cơ quan tư pháp tư pháp nhằm tạo điều kiện thuận lợi cho người dân tiếp cận công lý; … từng bước thực hiện việc công khai hóa các bản án…”. Thực hiện theo chỉ đạo này, các văn bản Luật đã được số hóa và phổ biến đến người dân ngày một nhiều. Tuy nhiên, việc khai thác các thông tin tài liệu pháp lý cũng gặp rất nhiều khó khăn do các phần mềm mới chỉ dừng lại ở mức cho phép người dùng tìm kiếm theo từ khóa, phân loại tố tụng mà chưa cung cấp được một công cụ tìm kiếm theo tình huống pháp lý mà người dân mô tả để đưa ra được văn bản pháp lý (Bản án) có độ tương tự nhất với trường hợp pháp lý mình đang gặp phải. Hay việc đối sánh chính xác văn bản với nhau để tìm ra sự sai sót trong áp dụng pháp luật. Nếu làm được điều này thì sẽ giải quyết được nhưng vấn đề sau: - Thay vì đưa nhau ra Tòa, các bên tham gia vụ việc sẽ tiến hành hòa giải bởi họ biết trước được kết quả nếu đưa vụ án ra xét xử thông qua bản án đã từng giải quyết trước đó. Qua đó giảm bớt áp lực công việc cho ngành Tòa án. - Các nhà quản lý sẽ biết được các bản án đã ra có áp dụng pháp luật đúng hay không thông qua việc đối sánh các bản án với nhau, nếu 2 bản án có độ tương đồng cao mà lại có kết quả xét xử khác nhau như vậy việc áp dụng pháp luật tại 1 trong 2 bản án có vấn đề. Từ đây họ sẽ điều chỉnh để hạn chế oan sai cho người dân, Hiện nay, cũng có một vài công trình nghiên cứu để xuất các phương pháp khác nhau để xác định độ tương đồng của văn bản tiếng Việt song vẫn chiếm tỉ lệ khá khiêm tốn so với các công trình nghiên cứu trên văn bản tiếng Anh. Do đặc điểm của từ tiếng Việt cũng có nhiều điểm khác với tiếng Anh, đặc biệt lại là văn bản Luật tiếng Việt. Việc xử lý văn bản và xây dựng được kho ngữ liệu chuẩn và đầy đủ là một vấn đến lớn. Vì những lý do này, chúng tôi đã chọn tài liệu pháp lý làm miền dữ liệu chính cho luận văn. 1.2. Mục đích đề tài Nghiên cứu tổng quan vấn đề xử lý văn bản tiếng Việt và một số phương pháp đánh giá độ tương tự văn bản tiếng Việt. Nghiên cứu đặc điểm của văn bản luật tiếng Việt, xây dựng mô hình biểu diễn văn bản luật tiếng Việt nhằm cải tiến các phép đo độ tương đồng. Thử nghiệm các phương pháp tính toán độ tương tự văn bản và đề xuất một phương pháp phù hợp nhất với miền dữ liệu văn bản luật tiếng Việt. Xây dựng bộ dữ liệu văn bản luật tiếng Việt (Bản án) phục vụ cho các nghiên cứu về sau. 12
1.3. Đối tượng đề tài Nghiên cứu một số mô hình tính toán độ tương tự văn bản cả về cú pháp và ngữ nghĩa, xác định sự tương đồng của văn bản dựa trên từ, câu và toàn bộ văn bản và ứng dụng trong văn bản luật tiếng Việt. Thực nghiệm các phép đo độ tương tự đang được áp dụng từ đây đề xuất ra phương pháp để cải thiện phép đo độ tương tự với miền dữ liệu văn bản luật tiếng Việt. 1.4. Phương pháp nghiên cứu Nghiên cứu lý thuyết về mô hình tính độ tương đồng văn bản, các mô hình biểu diễn văn bản và ứng dụng các mô hình vào việc thử nghiệm các phương pháp đo độ tương tự văn bản luật tiếng Việt. Đề xuất giải pháp nhằm nâng cao hiệu xuất tính toán độ tương tự của văn bản luật tiếng Việt. 13
CHƯƠNG 2. KIẾN THỨC NỀN TẢNG 2.1. Đặc điểm của văn bản tiếng Việt Văn bản tiếng Việt là một loại hình phương tiện để ghi nhận, lưu giữ và truyền đạt các thông tin từ chủ thể này sang chủ thể khác bằng ký hiệu gọi là chữ viết tiếng Việt. Nó gồm tập hợp các câu có tính trọn vẹn về nội dung, hoàn chỉnh về hình thức, có tính liên kết chặt chẽ và hướng tới một mục tiêu giao tiếp nhất định. Hay nói cách khác, văn bản tiếng Việt là một dạng sản phẩm của hoạt động giao tiếp bằng ngôn ngữ được thể hiện ở dạng viết trên một chất liệu nào đó (giấy, bia đá,...). Văn bản bao gồm các tài liệu, tư liệu, giấy tờ có giá trị pháp lý nhất định, được sử dụng trong hoạt động của các cơ quan Nhà nước, các tổ chức chính trị, chính trị - xã hội, các tổ chức kinh tế... như: các văn bản pháp luật, các công văn, tài liệu, giấy tờ. Do văn bản được viết bằng ngôn ngữ tiếng Việt vậy nên nó mang mọi đặc điểm của ngôn ngữ tiếng Việt. 2.1.1. Cấu tạo từ tiếng Việt Tiếng Việt là ngôn ngữ không biến hình từ và âm tiết tính, tức là mỗi một tiếng (âm tiết) được phát âm tách rời nhau và được thể hiện bằng một chữ viết [3]. Hai đặc trưng này chi phối toàn bộ toàn bộ tổ chức bên trong của hệ thống ngôn ngữ Việt và cần được chú ý khi xử lý tiếng Việt trên máy tính. a) Tiếng Tiếng là đơn vị cơ sở để cấu tạo lên từ. Tiếng là đơn vị nhỏ nhất có nội dung được thể hiện. Xét về mặt ý nghĩa, các tiếng có thể chia thành các loại sau [2]: - Tiếng tự thân nó đã có ý nghĩa, thường được quy chiếu vào một đối tượng, khái niệm. Ví dụ: trời, đất, nước, cây, cỏ… - Tiếng tự thân nó không có ý nghĩa, không được quy chiếu vào đối tượng, khái niệm nào cả mà chúng thường đi cùng với một tiếng khác có nghĩa và làm thay đổi sắc thái của tiếng đó, ví dụ như: (xanh) lè, (đường) xá, (nắng) nôi… - Tiếng tự thân nó không có ý nghĩa nhưng có thể ghép với nhau để tạo thành từ có nghĩa, thường xuyên gặp ở những từ mượn như phéc-mơ-tuya, a-pa-tít, mì-chính... Trong tiếng Việt các tiếng thuộc nhóm đầu tiên chiếm đa số, các tiếng thuộc hai nhóm sau thường chỉ chiếm số ít, đặc biệt là nhóm thứ 3, chúng thường được gọi là tiếng vô nghĩa. b) Từ, cụm từ Từ được cấu tạo từ một hoặc nhiều tiếng. Từ cấu tạo từ một tiếng gọi là từ đơn, ví dụ: tôi, bạn, nhà, hoa… Từ cấu tạo bởi nhiều tiếng là từ ghép, giữa các tiếng có mối quan hệ về nghĩa. 14
Từ ghép được phân thành từ ghép đẳng lập và từ ghép chính phụ. Đối với từ ghép đẳng lập các thành phần cấu tạo từ có mối quan hệ bình đẳng với nhau về nghĩa, ví dụ: ăn nói, bơi lội… Đối với từ ghép chính phụ, các thành phần cấu tạo từ có mối quan hệ phụ thuộc với nhau về nghĩa, thành phần phụ có vai trò làm chuyên biệt hóa, tạo sắc thái cho thành phần chính, ví dụ: hoa hồng, đường sắt… Cụm từ là những kiến trúc gồm hai từ trở lên kết hợp với nhau theo những quan hệ ngữ pháp nhất định. Ví dụ: - Từ “học” là từ gồm một tiếng. - Từ “đại học” là từ gồm hai tiếng. - Cụm từ “khoa học máy tính” gồm 2 từ hay 4 tiếng. 2.1.2. Biến hình từ tiếng Việt Tiếng Việt không có hiện tượng biến hình từ bằng những phụ tố mang ý nghĩa ngữ pháp bên trong từ như tiếng Anh [3]. Tuy nhiên, tiếng Việt cũng có một số hình thức biến hình như trường hợp thêm từ “sự” trước một động từ để biến nó thành danh từ hay thêm tiếng “hóa” sau một danh từ để biến nó thành động từ tương đương, ví dụ như “lựa chọn” và “sự lựa chọn”, “tin học” và “tin học hóa”. 2.1.3. Từ đồng nghĩa Từ đồng nghĩa là những từ tương đồng với nhau về nghĩa nhưng khác nhau về âm thanh và phân biệt với nhau về một vài sắc thái ngữ nghĩa hoặc phong cách nào đó, hoặc đồng thời cả hai [3]. Những từ đồng nghĩa với nhau lập thành một nhóm gọi là nhóm đồng nghĩa. Ví dụ: dễ, dễ dàng, dễ dãi là những nhóm từ đồng nghĩa. Từ đồng nghĩa thực chất không phải là những từ trùng nhau hoàn toàn về nghĩa mà có những khác biệt nhất định. Chính sự khác biệt đó là lí do tồn tại và làm nên sự khác nhau giữa các từ trong một nhóm từ đồng nghĩa. Thông thường các từ chỉ đồng nghĩa ở một nghĩa, một ngữ cảnh nào đó. Vì thế, một từ có nhiều nghĩa (đa nghĩa) có thể tham gia vào nhiều nhóm đồng nghĩa khác nhau. Ví dụ, từ “coi” có thể tham gia vào các nhóm như coi – xem (coi hát, xem hát), coi – giữ (coi nhà, giữ nhà). 2.1.4. Đặc điểm chính tả Đặc điểm chính tả tiếng Việt có ý nghĩa rất quan trọng trong các hệ thống xử lý dữ liệu văn bản. Một số đặc điểm chính tả tiếng Việt cần quan tâm như [3]: - Các tiếng đồng âm: kĩ/kỹ, lí, lý… thường bị sử dụng lẫn nhau như: lý luận, lí luận, kĩ thuật, kỹ thuật… - Các từ địa phương: một số từ địa phương sử dụng thay cho các từ phổ thông, chẳng hạn: cây kiểng/cây cảnh, đờn/đàn, đậu phộng/lạc… - Vị trí dấu thanh: theo quy định đánh dấu tiếng Việt, dấu được đặt trên nguyên âm có ưu tiên cao nhất. Tuy nhiên, khi soạn thảo văn bản nhiều bộ gõ không tuân thủ 15
nguyên tắc này nên có hiện tượng dấu được đặt ở các vị trí khác nhau, chẳng hạn: toán, tóan, thuý, thúy… - Cách viết hoa: theo quy định, chữ cái đầu câu và tên riêng phải viết hoa, tuy nhiên vẫn tồn tại một số cách viết tuỳ tiện. - Phiên âm tiếng nước ngoài: tồn tại cách viết giữ nguyên gốc tiếng nước ngoài và phiên âm ra tiếng Việt, ví dụ: Singapore/Xin−ga−po. - Từ gạch nối: do cách viết dấu gạch nối tuỳ tiện, không phân biệt được giữa nối tên riêng hay chú thích. Ký tự ngắt câu: sử dụng nhiều loại ký tự đặc biệt như “.”, “;”, “!”, “?”, “…” ngăn cách giữa các câu hoặc các vế câu trong câu ghép. 2.2. Đặc điểm của văn bản Luật tiếng Việt a) Khái niệm Văn bản luật tiếng Việt là một bộ phận của văn bản tiếng Việt, nó mang đầy đủ đặc tính của văn bản tiếng Việt. Văn bản luật tiếng Việt hay văn bản pháp luật [4] “là một hình thức để chủ thể mang thẩm quyền thể hiện ý chí, được thể hiện dưới dạng ngôn ngữ viết thông qua văn bản, bàn hành qua các hình thức, thủ tục mà pháp luật đã quy định”. Văn bản luật tiếng Việt là được chia làm 03 nhóm gồm: văn bản pháp luật, văn bản áp dụng pháp luật và văn bản hành chính. Mỗi nhóm trong hệ thống VBPL còn có một số nét đặc thù về nội dung, tính chất và vai trò trong quản lý nhà nước.  Văn bản quy phạm pháp luật Văn bản quy phạm pháp luật [4] là văn bản do cơ quan nhà nước ban hành hoặc phối hợp ban hành theo thẩm quyền, hình thức, trình tự, thủ tục được quy định trong Luật này hoặc trong Luật ban hành văn bản quy phạm pháp luật của Hội đồng nhân dân, Uỷ ban nhân dân, trong đó có quy tắc xử sự chung, có hiệu lực bắt buộc chung, được Nhà nước bảo đảm thực hiện để điều chỉnh các quan hệ xã hội. Có hai cách để nhận biết đâu là một văn bản Quy phạm pháp luật. - Thứ nhất là nhìn vào cách trình bày văn bản, như trong mỗi văn bản luật đều có chứa kèm theo số năm ban hành văn bản hay có mô típ quen thuộc như sau: Nghị quyết số 01/2005/NQ-HĐTP; điểm a và e khoản 1 Điều 93; khoản 1 Điều 133… - Thứ hai, có thể nhận biết văn bản luật là gì thông qua hai yếu tố là cơ quan ban hành và loại văn bản, cụ thể như sau:  Quốc hội ban hành Hiến pháp, luật, Nghị quyết.  Ủy ban Thường vụ Quốc hội ban hành Nghị quyết, Pháp lệnh, Nghị quyết liên tịch.  Hội đồng thẩm phán Tòa án Nhân dân tối cao ban hành Nghị quyết.  Chánh án Tòa án Nhân dân tối cao ban hành Thông tư và Thông tư liên tịch.  …  Văn bản áp dụng pháp luật 16
- Thứ nhất, văn bản áp dụng pháp luật ban hành ra dưới dạng quy định do những cơ quan nhà nước, cá nhân hoặc tổ chức xã hội được nhà nước ủy quyền áp dụng pháp luật ban hành và được bảo đảm thực hiện trong trường hợp cần thiết bằng cưỡng chế nhà nước. Chỉ những chủ thể có có thẩm quyền về những nội dung trong văn bản do pháp luật quy định mới có thẩm quyền ban hành văn bản áp dụng pháp luật. Nếu văn bản áp dụng pháp luật mà nội dung ban hành xác định về nội dung được ban hành bởi cá nhân hay tổ chức mà pháp luật không quy định về thẩm quyền ban hành thuộc cá nhân hay cơ quan tổ chức ban hành đó thì văn bản áp dụng pháp luật đó không có hiệu lực pháp luật. - Thứ hai, văn bản áp dụng pháp luật được thể hiện trong những hình thức pháp lý dưới các dang hình thức nhất định nhất định như: bản án, quyết định, lệnh,… - Hình thức của văn bản pháp luật bao gồm tên gọi và thể thức của văn bản pháp luật. Đối với văn bản áp dụng pháp luật thì tên gọi do pháp luật quy định, tùy thuộc vào tính chất công việc mà văn bản áp dụng pháp luật có tên gọi khác nhau, đồng thời thông qua tên gọi của văn bản áp dụng pháp luật ta có thể nhận biết được cơ quan nào có thẩm quyền ban hành văn bản áp dụng pháp luật đó.  Văn bản hành chính - là loại văn bản thường dùng để truyền đạt những nội dung và yêu cầu nào đó từ cấp trên xuống hoặc bày tỏ những ý kiến, nguyện vọng của cá nhân hay tập thể tới các cơ quan và người có quyền hạn để giải quyết. - Văn bản hành chính là loại văn bản mang tính thông tin quy phạm Nhà nước, cụ thể hóa việc thi hành văn bản pháp quy, giải quyết những vụ việc cụ thể trong khâu quản lý, như: quyết định nâng lương, quyết định kỉ luật, thông báo, giấy mời họp... 2.3. Sự khác nhau giữa văn bản tiếng Việt và văn bản luật tiếng Việt Văn bản luật tiếng Việt là bộ phận của văn bản tiếng Việt do đó nó mang đầy đủ đặc tính của văn bản tiếng Việt, chỉ khác nó chứa nhiều thuật ngữ pháp lý. Những thuật ngữ dùng để chỉ về những khái niệm thường dùng trong khoa học pháp lý hoặc các văn bản pháp luật và dùng để chỉ, mô tả một cách khái quát nhất, cô đọng nhất các hiện tượng, nội dung, trạng thái pháp lý. Thuật ngữ pháp lý cốt lõi chính là những định nghĩa, khái niệm về các hiện tượng, sự vật trong hệ quy chiếu pháp luật. Thuật ngữ pháp lý có ý nghĩa rất lớn đối với việc nghiên cứu khoa học pháp lý cũng có ý nghĩa quan trọng trong việc giải thích các quy định của pháp luật. 2.4. Tổng quan về bài toán đô độ tương tự văn bản 2.4.1. Khái niệm về độ tương tự văn bản Độ tương tự văn bản (document similarity) hay khoảng cách giữa các văn bản là một trong những bài toán trọng tâm của truy hồi thông tin (information retrieval) [11]. Việc đo lường mức độ giống nhau của các văn bản đóng một vai trò quan trọng trong nhiều bài toán như: tìm kiếm thông tin dựa trên nội dung của tài liệu [12], phân nhóm tài liệu dựa vào sự tương đồng về nội dung [13][14], … Độ tương tự văn bản là một đại lượng dùng 17
để so sánh hai hay nhiều tài liệu văn bản với nhau. Đại lượng này đặc trưng cho mức độ liên quan về ngữ nghĩa giữa các văn bản. Xét ví dụ gồm hai câu “Tôi thích xem phim” và “Tôi yêu phim”, Có thể thấy rằng hai câu trên có độ tương đồng về ngữ nghĩa rất cao. Theo tác giả Nguyễn Kim Anh [5] thì độ tương tự giữa hai văn bản ngoài việc so khớp từ đơn giản, điểm tương tự còn được xác định dựa trên số đơn vị từ vựng xuất hiện ở cả hai văn bản. Đặc biệt cần phải quan tâm tới hiện tượng đồng nghĩa của từ, tầm quan trọng của từ như tần suất xuất hiện, vị trí xuất hiện của từ và câu trong văn bản. Để xem xét độ tương tự văn bản, ta cần xét văn bản ở trong 2 khía cạnh là độ tương tự giữa từ của hai văn bản và độ tương tự về ngữ nghĩa.  Độ tương tự của từ là khái niệm thể hiện tỷ lệ dựa trên tập từ chung của hai văn bản.  Độ tương tự ngữ nghĩa là khái niệm thể hiện tỷ lệ dựa trên sự giống nhau về nội dung ý nghĩa của tập các văn bản. Độ tương tự về ngữ nghĩa giữa 2 văn bản thể hiện mối quan hệ về ngữ nghĩa giữa các từ, các câu trong văn bản. Theo tác giả Đỗ Thị Thanh Nga thì độ tương tự ngữ nghĩa là khái niệm thể hiện tỷ lệ dựa trên sự giống nhau về nội dung ý nghĩa của tập các tài liệu hoặc các thuật ngữ trong một danh sách các thuật ngữ [1]. Độ tương đồng ngữ nghĩa phản ánh mối quan hệ ngữ nghĩa giữa các câu và các tài liệu văn bản. Xét hai văn bản d1 và d2. Mục tiêu của luận văn này nhắm đến việc đo lường giá trị S(d1,d2), thể hiện hiện độ tương tự giữa hai văn bản d1 và d2. Giá trị S càng cao thì sự giống nhau về ngữ nghĩa của hai văn bản càng cao. 2.4.2. Ứng dụng của bài toán đo độ tương tự giữa hai văn bản. Bài toán đo độ tương tự giữa văn bản và văn bản được cả thế giới quan tâm nghiên cứu từ rất lâu trong các ứng dụng của xử lý ngôn ngữ tự nhiên và các lĩnh vực liên quan. Các ứng dụng phải kể đến như tìm kiếm thông tin, các tài liệu liên quan sẽ được xếp hạng theo thứ tự của độ tương tự. Ngoài ra, độ tương tự văn bản còn được ứng dụng cho bài toán phân lớp văn bản, tóm tăt văn bản, bài toán xác định đạo văn... Gần đây nhất là bài toán hỗ trợ pháp lý cũng đặc biệt được quan tâm và nghiên cứu. Các phép đo độ tương tự giữa văn bản và văn bản chủ yếu dựa trên hai tiếp cận chính là các tiếp cận thống kê và các tiếp cận dựa trên mạng nơron học sâu (deep learning) 2.5. Phương pháp dựa trên thống kê. 2.5.1. Khái niệm Các phương pháp theo tiếp cận thống kê đánh giá độ tương tự giữa hai văn bản dựa trên tần suất xuất hiện của các từ trong câu. Độ tương tự đo được tỷ lệ thuận với kích thước của tập từ chung giữa hai văn bản. Một số phương pháp tiêu biểu theo tiếp cận này như: các phương pháp sử dụng độ đo Cosine, độ đo khoảng cách Eclide, Manhattan, phương pháp độ đo Jaccard, phương pháp TF-IDF[19],… Các phương pháp này tốc độ 18
xử lý nhanh, tốn ít chi phí nhưng độ chính xác không cao về mặt ngữ nghĩa, do chưa quan tâm đến ngữ nghĩa trong văn bản mà chỉ quan tâm đến số lượng từ chung giữa hai văn bản. 2.5.2. Độ đo tương tự Jaccard Đây là một trong những độ đo đầu tiên được sử dụng để đánh giá mức độ tương đồng ngữ nghĩa giữa các văn bản bằng cách so khớp mức độ trùng lặp giữa các từ của hai văn bản với nhau. Ưu điểm của phương pháp này là tốc độ nhanh và không cần phải huấn luyện mô hình trước. Nhược điểm của phương pháp này là không so khớp được mức độ ngữ nghĩa giữa các văn bản cũng như không biết được mức độ quan trọng khác nhau của các từ trong văn bản. Chi tiết về phương pháp này được trình bày trong phần sau của luận văn. 2.5.3. Độ đo TF-IDF Đây là độ đo rất nổi tiếng, được sử dụng trong nhiều bài toán NLP và khai phá dữ liệu dạng văn bản với mục đích: tính weight (độ quan trọng) của từ (word) trong một văn bản cụ thể, văn bản đó nằm trong một tập nhiều văn bản khác nhau. Cách tiếp cận này được sử dụng rộng rãi bởi tốc độ tính toán nhanh và kết quả nó đem lại cũng khá tốt. Nó thường được sử dụng để làm một bước lọc cho nhiều bài toán. Ví dụ như bài toán hỏi-đáp theo tiếp cận truy hồi câu trả lời [17]. Trong bài toán này, ta đã có một ngân hàng chứa hàng tỷ câu trả lời thuộc mọi lĩnh vực, mỗi khi có một câu hỏi, chương trình sẽ tìm câu trả lời thích hợp trong ngân hàng câu trả lời đó. Nếu sử dụng các kĩ thuật học sâu phức tạp thì việc tìm kiếm trong tập câu trả lời khổng lồ như vậy là không hiệu quả trong một khoảng thời gian nhất định (các hệ thống hỏi đáp thường yêu cầu realtime). Chính vì thế, bước đầu tiên chúng ta cần rút gọn tập câu trả lời tiềm năng bằng cách dùng độ đo TF-IDF để chọn ra tốp k câu trả lời tốt nhất, sau đó mới áp dụng các kĩ thuật phức tạp khác để tìm ra câu trả lời tốt nhất trong k câu trả lời tiềm năng kia. Đây cũng là một tiếp cận được lựa chọn để thử nghiệm cho bài toán của chúng tôi và chi tiết phương pháp sẽ được trình bày trong phần sau. 2.6. Phương pháp dựa trên mạng nơron học sâu. 2.6.1. Khái niệm học sâu Học sâu (deep learning) là một chi của ngành máy học dựa trên một tập hợp các thuật toán để cố gắng mô hình dữ liệu trừu tượng hóa ở mức cao bằng cách sử dụng nhiều lớp xử lý với cấu trúc phức tạp, hoặc bằng cách khác bao gồm nhiều biến đổi phi tuyến. Học sâu là một phần của một họ các phương pháp học máy rộng hơn dựa trên đại diện học của dữ liệu. ví dụ như, một hình ảnh có thể được biểu diễn bằng nhiều cách như một vector của các giá trị cường độ cho mỗi điểm ảnh, hoặc một cách trừu tượng hơn như là một tập hợp các cạnh, các khu vực hình dạng cụ thể, vv 19
Các nghiên cứu trong lĩnh vực này cố gắng thực hiện các đại diện tốt hơn và tạo ra các mô hình để tìm hiểu các đại diện này từ dữ liệu không dán nhãn quy mô lớn. Một số đại diện được lấy cảm hứng bởi những tiến bộ trong khoa học thần kinh và được dựa trên các giải thích của mô hình xử lý và truyền thông thông tin trong một hệ thống thần kinh, chẳng hạn như mã hóa thần kinh để cố gắng để xác định các mối quan hệ giữa các kích thích khác nhau và các phản ứng liên quan đến thần kinh trong não. Nhiều kiến trúc mạng nơron học sâu khác đã được áp dụng cho các lĩnh vực như thị giác máy tính, tự động nhận dạng giọng nói, xử lý ngôn ngữ tự nhiên, nhận dạng tiếng nói và tin sinh học. Các mô hình học sâu đã đạt được kết quả rất tốt đối với nhiều nhiệm vụ NLP khác nhau Hướng tiếp cận này có nhiều ứng dụng như: Hệ thống nhận diện hình ảnh như Google Photos, Google Search, Google Drive; hay các hệ thống nhận dạng giọng nói thương mại như Cortana, Xbox, Skype Translator… 2.6.2. Một số ứng dụng của học sâu (Deep Learning) a. Nhân dạng giọng nói Nhận dạng giọng nói tự động quy mô lớn là trường hợp thành công dầu tiên và thuyết phục nhất của học sâu. Các mạng nơ ron hồi quy LSTM có thể học các nhiệm vụ “học rất sâu” liên quan đến các khoảng thời gian nhiều giây có chứa các sự kiện lời nói cách nhau bởi hàng ngàn bước thời gian riêng biệt, trong đó một bước thời gian tương ứng với 10 ms. Sự ra đời của DNN (Deep Neural Network – mạng nơ ron sâu) để nhận dạng giọng nói và LSTM đã đẩy nhanh quá trình phát triển học sâu. Ngày nay tất cả các hệ thống nhận dạng giọng nói thương mại như Cortana, Xbox, Skype Translator… đều dựa trên học sâu. b. Dịch các ngôn ngữ Các mạng nơ-ron đã được sử dụng để thực hiện các mô hình ngôn ngữ từ những năm 2000. LSTM đã giúp cải thiện các hệ thống dịch máy và mô hình hóa ngôn ngữ. Các kỹ thuật quan trọng khác trong lĩnh vực này là lấy mẫu âm tính và nhúng từ. Nhúng từ, chẳng hạn như Word2Vec [15], có thể được coi là một lớp biểu diễn trong kiến trúc học sâu, biến một từ nguyên tử thành một biểu diễn vị trí của từ so với các từ khác trong tập dữ liệu; vị trí được biểu diễn dưới dạng một điểm trong không gian vector. Sử dụng nhúng từ làm lớp đầu vào của RNN cho phép phân tích các câu và cụm từ bằng cách sử dụng một ngữ pháp vector thành phần hiệu quả. Một ngữ pháp vector thành phần có thể được coi là ngữ pháp tự do ngữ cảnh xác suất (PCFG) được thực hiện bởi một RNN. Bộ mã hóa tự động đệ quy được xây dựng trên các từ nhúng để đánh giá độ tương tự của câu và phát hiện phép diễn giải. Các kiến trúc Deep learning cung cấp kết quả tốt nhất cho phân tích cấu thành, phân tích tình cảm, truy xuất thông tin, hiểu ngôn ngữ nói, dịch máy, liên kết thực thể theo ngữ cảnh, phân loại văn bản và các loại khác. c. Y khoa 20