HC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG
---------------------------------------
NGUYN DIU LINH
PHÂN LOẠI CÂU HỎI PHÁP QUY TIẾNG VIT
S DỤNG MÔ HÌNH BERT
Chuyên ngành: Khoa học máy tính
Mã số: 8.48.01.04
TÓM TẮT LUN VĂN THẠC
HÀ NỘI 2021
Luận văn đƣợc hoàn thành tại:
HC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG
Ngƣi hƣng dn khoa hc: TS. Ngô Xuân Bách
Phn bin 1: TS. Phùng Văn n
Phn bin 2: PGS.TS. Trần Đình Quế
Luận văn sẽ được bo v trưc Hi đng chm luận văn thạc sĩ tại Hc vin
Công ngh Bưu chĩnh Viễn thông.
Vào lúc: 08 gi 40 ngày 09 tháng 01 m 2021
Có th tìm hiểu lun văn tại:
- Thư viện ca Hc viện Công nghệ Bưu chính Viễn thông.
1
M ĐẦU
Vi rnhu rcu rtrao rđổi r rtìm rkiếm rthông rtin rca rcon rngười rngày rcàng rcao, đồng
nghĩ với việc người dùng mong muốn kết qu tìm kiếm tr rv rmt rcách rngn rgn, rsúc
rtích, rchính rxác rnht. r rvy, rh rthng rhi rđáp rt rđộng rra rđời rnhm rđáp rng rnhu rcu
rnày.
H rthng rhi-đáp rt rđộng r rh rthng rđược rxây rdng rnhm rmc rđích rthc rhin
rvic rtìm rkiếm rt rđộng rcâu rtr rli rt rmt rtp rln rcác rtài rliu rcho rcâu rhi rđầu rvào rmt
rcách rchính rxác.
Phân loại câu hỏi pha đầu tiên trong kiến trúc chung ca mt h thng hi
đáp, có nhiệm v tìm ra các thông tin cn thiết làm đầu vào cho quá trình xử của các
pha sau (trích chọn tài liệu, trích xut câu tr li, v.v).
Văn rbn rpháp rquy r rvăn rbn r rcác rquy rphm rpháp rlut rdo rcác r rquan rqun r
rnhà rnước, r rtrung rương, r rquan rquyn rlc rnhà rnước, r rquan rqun r rnhà rnước r rđịa
rphương rban rhành rtheo rthm rquyn rlp rquy rca rmình. Mun hỏi đáp một vấn đề pháp
lut cn phi tra cu tìm kiếm rt nhiều tài liệu văn bản pháp luật liên quan. Vì vy, để
giúp cho việc rút ngắn thời gian tìm kiếm thì cần phân loại câu hỏi pháp quy theo các
lĩnh vc pháp luật.
Phân loại đa nhãn phân loại văn bản, trong đó mỗi văn bản th thuc mt
s ch đề được xác định trước cùng một lúc. Một câu hỏi pháp quy thông thường
th s liên quan đến nhiu loại lĩnh vực pháp luật. Việc phân loại câu hỏi pháp quy
tiếng Việt đặt ra là mỗi câu hỏi có thể thuc mt s lĩnh vực. Vì vậy, bài toán phân loại
câu hỏi pháp quy tiếng Vit là bài toán phân loi đa nhãn câu hỏi pháp quy tiếng Vit.
Các phương pháp phổ biến hin nay có rất nhiều phương pháp ch tiếp cn
để gii quyết bài toán phân loại câu hi. Gần đây nhiều phương pháp học sâu sử
dng mạng -ron ph biến cho kết qu tốt hơn do thể t động trích chọn được
những thông tin cần thiết và hc đưc ng nghĩa từ d liu.
hình BERT bn chất một dạng hình huấn luyện trước, tn dụng các
ngun d liệu không có nhãn đ học, sau đó dùng vào các bài toán khác.
Phân loại câu hỏi pháp quy tiếng Việt i toán phân loại câu hỏi v pháp lut
thành các lĩnh vực pháp lý.
Luận văn Phân loại câu hỏi pháp quy tiếng Vit s dụng hình BERT thc
hiện mô hình hóa bài toán dưi dng một bài toán phân lớp đa nhãn. Trong đó mỗi câu
2
hi thể thuc mt hoc nhiều lĩnh vực khác nhau. Luận văn thc hin phân loại câu
hi s dụng cách tiếp cn học y giám sát, c th sử dng mt s hình truyn
thống SVM hình BERT[18, 6]. Kết qu thc nghim tt nhất đạt được khi s
dng mô hình BERT là 89.47% đo F1).
Ni dung chính ca luận văn được trình bày trong ba chương như sau:
Chƣơng 1: Gii thiệu bài toán phân loại câu hỏi pháp quy tiếng Vit :
Trong chương này, luận văn gii thiu bài toán phân loại câu hỏi, đặc điểm d
liu câu hỏi pháp quy, mt s nghiên cứu liên quan, các phương pháp phân loại
câu hi kết luận chương.
Chƣơng 2: Phân loại câu hỏi pháp quy tiếng Vit s dụng hình BERT :
Trong chương 2, luận văn gii thiu v bái toán phân loại đa nhãn câu hỏi tiếng
Vit, gii thiu mt s hình học u, giới thiệu phương pháp BERT và trình
bày mô hình phân loại câu hỏi pháp quy tiếng Vit s dụng mô hình BERT.
Chƣơng 3: Thc nghiệm đánh giá : Chương này, luận văn trình bày tng quan
v kho ng liệu, cách thu thập, tin x lý, y dựng tập nhãn thống kho
ng liu; s dụng các thư viện sẵn cài đặt h thống phân loại u hỏi áp
dụng phương pháp được đề xut Chương 2; thực hin hun luyn h thng
vi b d liệu tập nhãn đã xây dựng tthống đánh giá kết qu thc
nghim.
3
CHƢƠNG 1: BÀI TOÁN PHÂN LOẠI CÂU HỎI
1.1 Gii thiệu bài toán phân loại câu hi
H thng hỏi đáp một h thống đóng vai trò ph biến trong việc tìm kiếm
thông tin nhanh chóng, chính xác hiệu qu. rNhim rv rca r r rđưa rra rcâu rtr rli
rđầy rđủ r rchính rxác rng rvi ryêu rcu rmong rmun rca rngười rdùng r rcâu rtr rli rđược
rth rhin rbng rngôn rng rt rnhiên. Một trong các yếu t đóng vai trò quan trọng trong
h thng hi đáp là phân loi câu hi.
Bài toán phân loại câu hỏi thc chất thể xem bài toán phân lớp. Phân loại
câu hỏi việc gán các nhãn phân loại cho các câu hỏi da trên mức độ tương tự ca
câu hỏi đó so với các câu hỏi đã được gán nhãn trong tp hun luyn. Việc phân loại
câu hỏi thường được th hin bằng cách gán cho câu hi một nhãn sẵn theo tp
nhãn cho trước.
Bài toán phân loại câu hỏi có th được mô tả như sau:
Input:
- Cho trưc mt các câu hi q.
- Tập các chủ đề (phân loại) đưc định nghĩa .
Tìm câu hỏi q thuc ch đề nào?
Output:
- Nhãn ca câu hi
1.2 Đặc điểm d liu câu hỏi pháp quy
Văn bản pháp quy văn bản có các quy phạm pháp luật do các cơ quan quản lý
nhà nước, trung ương, cơ quan quyền lc nớc, quan quản lý nhà c địa
phương ban hành theo thẩm quyn lp quy ca mình.
Câu hỏi pháp quy đặc điểm ý hỏi thể liên quan đến mt hoc nhiều điều
luật. Thông thường, câu hỏi ch phân theo một nhãn nhất định, nhưng với câu hỏi pháp
quy thì một câu hỏi thể một hoc nhiều hơn một nhãn do ý hi của câu hỏi
liên quan đến nhiều điều luật khác nhau mà không thể ghép chung làm một.
Ví dụ: câu hỏi Chi phí cho t chức công chng vi giao dch v quyn s dng
đất gn lin với nhà ?ý hi thuộc lĩnh vực “công chứng” lĩnh vực “phí lệ
phí”.
1.3 Mt s nghiên cứu liên quan
1.3.1 Mt s nghiên cu cho phân loại đa nhãn