Hệ thống hỗ trợ hỏi đáp thủ tục hành chính

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:7

Thêm vào BST

Báo xấu

33
lượt xem 3
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết trình bày đề xuất xây dựng hệ thống hỗ trợ hỏi đáp thủ tục hành chính cho người dùng là các tổ chức, cá nhân và doanh nghiệp (gọi tắt là đối tượng người dùng). Hệ thống tự động trả lời các câu hỏi liên quan đến thủ tục hành chính mà đối tượng người dùng thường đặt ra mỗi khi đến cơ quan cung cấp thủ tục hành chính.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Hệ thống hỗ trợ hỏi đáp thủ tục hành chính

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020 DOI: 10.15625/vap.2020.00164 HỆ THỐNG HỖ TRỢ HỎI ĐÁP THỦ TỤC HÀNH CHÍNH Nguyễn Thanh Điền1, Phạm Thế Phi2, Phạm Công Xuyên3, Đỗ Thanh Nghị2 1 Sở Khoa học và Công nghệ thành phố Cần Thơ Số 02, Đường Lý Thường kiệt, Tân An, Ninh Kiều, TP. Cần Thơ 2 Khoa CNTT-TT, Trường Đại học Cần Thơ Khu 2, Đường 3/2, Xuân Khánh, Ninh Kiều, TP. Cần Thơ 3 Trường Đại học Lạc Hồng Số 10, Huỳnh Văn Nghệ, P. Bửu Long, Tp. Biên Hòa - Tỉnh Đồng Nai pcxuyen@lhu.edu.vn, ntdienct@gmail.com, {ptphi,dtnghi}@cit.ctu.edu.vn TÓM TẮT: Trong bài viết này, chúng tôi đề xuất xây dựng hệ thống hỗ trợ hỏi đáp thủ tục hành chính cho người dùng là các tổ chức, cá nhân và doanh nghiệp (gọi tắt là đối tượng người dùng). Hệ thống tự động trả lời các câu hỏi liên quan đến thủ tục hành chính mà đối tượng người dùng thường đặt ra mỗi khi đến cơ quan cung cấp thủ tục hành chính. Người dùng đặt câu hỏi hay yêu cầu trực tiếp cho hệ thống dưới dạng văn bản, hệ thống tiếp nhận và thực hiện phân lớp văn bản câu hỏi, để xác định được câu trả lời thủ tục tương ứng với yêu cầu người dùng. Chúng tôi đã thu thập và biên soạn tập dữ liệu văn bản gồm 420 câu hỏi và câu trả lời trả lời từ 36 thủ tục hành chính thuộc lĩnh vực Báo chí, Xuất bản - In - Phát hành của đơn vị cung cấp là Sở Thông tin và Truyền thông thành phố Cần Thơ. Tập dữ liệu văn bản câu hỏi sau thu thập được tiền xử lý, tách từ và được biểu diễn về dạng mô hình túi từ. Chúng tôi huấn luyện các bộ phân lớp như máy học véctơ hỗ trợ, rừng ngẫu nhiên, mạng nơron cho độ chính xác lần lượt là 89,768 %, 97,101 % và 99,526 %. Từ kết quả thực nghiệm, chúng tôi đề xuất sử dụng bộ phân lớp văn bản mạng nơron trong hệ thống trả lời tự động thủ tục hành chính. Từ khóa: Hệ thống hỏi đáp tự động thủ tục hành chính, phân lớp văn bản, máy học véctơ hỗ trợ SVM, rừng ngẫu nhiên, mạng nơron. I. GIỚI THIỆU Ngày nay, hệ thống hỏi đáp tự động càng trở nên phổ biến và được sử dụng trong nhiều lĩnh vực của cuộc sống như trợ lý sức khoẻ, trợ lý giáo dục, trợ lý bảo tàng, trợ lý cá nhân, trợ lý du lịch, hỏi đáp dịch vụ công cộng. Hệ thống hỏi đáp tự động [D. Jurafsky and J-H. Martin, 2017] được nghiên cứu tập trung vào mô hình tương tác giữa người và máy tính, sử dụng ngôn ngữ tự nhiên với các đoạn văn bản, các đoạn hội thoại ngắn dưới giao diện tương tác đơn giản. Phần lớn các mô hình hệ thống hỏi đáp tự động được tạo ra dựa trên ba hướng tiếp cận chính. Tiếp cận dựa trên tập câu hỏi, câu trả lời đã được tạo sẵn: Đây là phương pháp được sử dụng phổ biến hiện nay, hệ thống hỏi đáp tự động có tập các câu hỏi đầu vào được xây dựng sẵn cùng với các câu trả lời tương ứng. Các câu hỏi giao tiếp được đặt ra từ người dùng sẽ được so khớp với tập các câu hỏi để tìm ra câu trả lời phù hợp nhất. Tiếp cận này dễ sử dụng, đơn giản, tuy nhiên cần rất nhiều thời gian trong việc xây dựng tập dữ liệu và việc phụ thuộc vào tập dữ liệu tạo sẵn. Tiếp cận dựa trên corpus: Nhiều nghiên cứu gần đây tiến hành thu thập các corpus dữ liệu để tìm kiếm câu trả lời phù hợp nhất từ yêu cầu từ người dùng. Phương pháp truy hồi thông tin được sử dụng để tìm kiếm những câu trả lời từ danh sách các tài liệu trong Google corpus. Đây là phương pháp có thể sử dụng kết hợp giữa corpus và các bộ trích lọc ngữ nghĩa của dữ liệu FrameNet và Verbnet để tìm kiếm câu trả lời phù hợp nhất. Các phương pháp này có ưu điểm là cho độ chính xác cao và nhược điểm là không thể xử lý được các trường hợp mẫu chưa được quan sát, không có trong bộ luật và tốn nhiều thời gian xử lý. Tiếp cận tự sinh câu trả lời: Phương pháp này huấn luyện mô hình mạng nơron để sinh các câu trả lời một cách tự động. Đây cũng là một trong những phương pháp đạt được nhiều thành công trong thời gian gần đây và được các nhà nghiên cứu đề xuất mô hình mạng nơron hồi tiếp (Recurrent Neural Network) để tạo ra các câu trả lời từ Blogs. Phương pháp này tạo cảm giác cho người dùng như đang trò chuyện với con người. Tuy nhiên, những mô hình này thì rất phức tạp trong việc huấn luyện, có thể dễ bị mắc lỗi về ngữ pháp và đồng thời mô hình cần một lượng lớn dữ liệu huấn luyện. Trong bài viết này, chúng tôi đề xuất xây dựng hệ thống hỏi đáp thủ tục hành chính có thể trả lời tự động cho người dùng các câu hỏi liên quan đến thủ tục hành chính mà đối tượng người dùng thường đặt ra mỗi khi đến cơ quan cung cấp thủ tục hành chính. Hệ thống tiếp nhận từ người dùng câu hỏi hay yêu cầu dạng văn bản, tiến hành tiền xử lý và biểu diễn câu hỏi theo mô hình túi từ, thực hiện phân lớp câu hỏi, xác định câu trả lời là thủ tục hành chính tương ứng với câu hỏi. Để xây dựng hệ thống, chúng tôi đã thu thập và biên soạn tập dữ liệu văn bản gồm 420 câu hỏi và câu trả lời trả lời từ 36 thủ tục hành chính thuộc lĩnh vực Báo chí, Xuất bản - In - Phát hành của đơn vị cung cấp là Sở Thông tin và Truyền thông thành phố Cần Thơ. Tập dữ liệu văn bản câu hỏi sau thu thập được tiền xử lý, tách từ và được biểu diễn về dạng mô hình túi từ. Chúng tôi đã huấn luyện các bộ phân lớp như máy học véctơ hỗ trợ (support vector machines - SVM [Vapnik, 1995]), rừng ngẫu nhiên (random forests - RF [Breiman, 2001]), mạng nơron (neural networks - NN [LeCun, 1985]) cho độ chính xác lần lượt là 89,768 %, 97,101 % và 99,526 %. Kết quả thực nghiệm cho phép chúng tôi chọn bộ phân lớp văn bản mạng nơron cho hệ thống hỏi đáp thủ tục hành chính.
Nguyễn Thanh Điền, Phạm Thế Phi, Phạm Công Xuyên, Đỗ Thanh Nghị 159 Nội dung tiếp theo của bài viết được tổ chức như sau. Phần 2 trình bày hệ thống đề xuất để trả lời tự động thủ tục hành chính. Kết quả thực nghiệm sẽ được trình bày trong Phần 3 trước kết luận và hướng phát triển được trình bày trong Phần 4. II. HỆ THỐNG HỖ TRỢ HỎI ĐÁP THỦ TỤC HÀNH CHÍNH Hình 1 mô tả hệ thống hỗ trợ hỏi đáp thủ tục hành chính. Người dùng có thể đặt câu hỏi (Q) liên quan đến thủ tục hành chính, thành phần hồ sơ của một thủ tục, thời gian xử lý một thủ tục, biểu mẫu của thủ tục. Câu hỏi dạng văn bản Q được tiền xử lý (tách từ, loại bỏ từ dừng) và viết lại thành Q‟ (biểu diễn theo mô hình túi từ). Mô hình máy học phân loại tự động câu hỏi Q‟ về lớp C. Hệ thống liệt kê danh sách các câu hỏi trong lớp C và tính độ tương đồng giữa Q‟ đến tất cả các câu hỏi trong lớp C, chọn câu hỏi có độ tương đồng cao nhất truy hồi câu trả lời câu hỏi cho người dùng. SVM Tách từ, Viết lại Các lớp Danh sách loại stopword câu hỏi Q SVM/RF/NN câu hỏi RF/NN Q Cosine Ranking 01 câu hỏi chính Trả lời Truy hồi Danh sách câu k câu hỏi liên câu hỏi Q câu trả lời hỏi Ranking quan Hình 1. Sơ đồ hệ thống hỗ trợ hỏi đáp thủ tục hành chính A. Thu thập tập dữ liệu và biểu diễn dữ liệu Hình 2. Dữ liệu mẫu trong corpus và được gán nhãn Để xây dựng hệ thống, chúng tôi tiến hành thu thập dữ liệu dạng liên quan đến một thủ tục hành chính. Tại bộ phận một cửa, chúng tôi trực tiếp khảo sát và tham khảo ý kiến từ cán bộ phụ trách cung cấp, xử lý thủ tục hành chính thì các yêu cầu về thủ tục hành chính từ người dùng cần phải làm rõ lĩnh vực ngành nghề mà người dùng yêu cầu thủ tục hành chính. Nhiều thủ tục chỉ khác nhau một vài từ nên các yêu cầu về thủ tục hành chính cần phải xác định rõ môi trường và ngữ cảnh của mỗi yêu cầu về thủ tục hành chính. Ngoài ra, để làm giàu thêm ngữ liệu, chúng tôi cũng biên soạn các cặp từ nội dung của từng thủ tục. Cuối cùng, chúng tôi đã thu được tập dữ liệu bao gồm 420 câu hỏi, câu trả lời từ 36 thủ tục thuộc lĩnh vực Báo chí, Xuất bản - In - Phát hành (lớp: XIP_TT_0003 , nhãn: _0002). Hình 2 trình bày vài mẫu dữ liệu của các câu hỏi (Q), lớp (C) và câu trả lời tương ứng (A). Như đã chỉ ra trong nghiên cứu [Phạm et al., 2016], [Đỗ & Hoàng, 2019], chúng tôi tiến hành bước tiền xử lý tập dữ liệu văn bản như tách từ đơn và biểu diễn dữ liệu bằng mô hình túi từ (Bag of words - BoW [Salton et al., 1975]). Một
160 HỆ THỐNG HỖ TRỢ HỎI ĐÁP THỦ TỤC HÀNH CHÍNH câu hỏi văn bản được biểu diễn dạng véctơ (có n thành phần, chiều) mà giá trị thành phần thứ j là tần số xuất hiện từ thứ j trong câu hỏi văn bản. Tập dữ liệu gồm 420 câu hỏi và từ điển có 512 từ vựng, thì tập dữ liệu được biểu diễn thành bảng D kích thước 420 x 512, dòng thứ i của bảng là véctơ biểu diễn câu hỏi thứ i tương ứng. Bước quan trọng tiếp theo là cần huấn luyện mô hình máy học phân lớp tự động câu hỏi Q vào một trong 36 lớp, như các nghiên cứu [S. Fabrizio, 2002], [Dumais et al., 1998], [Lewis and Gale, 1994]. Trong các giải thuật phân lớp [Wu & Kumar, 2009], [Hastie et al., 2009] máy học véctơ hỗ trợ, rừng ngẫu nhiên và mạng nơron là các giải thuật phổ biến và hiệu quả cho phân lớp tự động văn bản. B. Máy học véctơ hỗ trợ Giải thuật máy học véctơ hỗ trợ (support vector machines - SVM [Vapnik, 1995]) huấn luyện mô hình phân lớp là siêu phẳng tối ưu (w, b) để tách dữ liệu của các lớp ra xa nhất có thể. Giải thuật huấn luyện cùng lúc phải cực đại hóa lề phân hoạch và cực tiểu hóa lỗi. C. Rừng ngẫu nhiên Giải thuật rừng ngẫu nhiên (random forests - RF [Breiman, 2001]) huấn luyện tập hợp T mô hình cây quyết định không cắt nhánh (để giữ thành phần lỗi bias thấp), sử dụng tập mẫu bootstrap và chọn ngẫu nhiên một tập con n’ thuộc tính (giảm thành phần lỗi variance). Phân lớp phần tử x dựa vào bình chọn số đông của T mô hình cây quyết định cơ sở. D. Mạng nơron Mạng nơron (Neural Networks - NN [LeCun, 1985]) là mô hình xử lý thông tin được mô phỏng dựa trên hoạt động của hệ thống thần kinh sinh học. Mạng nơron bao gồm các nơron nhân tạo nối kết với nhau và xử lý thông tin bằng cách truyền theo các kết nối và tính giá trị mới tại các nút (cách tiếp cận connectionism đối với tính toán). Giải thuật lan truyền ngược (back propagation) là giải thuật được sử dụng nhiều nhất để huấn luyện mạng nơron, thực hiện cập nhật trọng số các cung trong mạng bằng cách lan truyền gradient của hàm lỗi từ tầng đầu ra ngược trở lại các tầng ẩn, rồi đến tầng đầu vào. III. KẾT QUẢ THỰC NGHIỆM A. Chương trình Để đánh giá hiệu quả của hệ thống hỗ trợ hỏi đáp thủ tục hành chính, chúng tôi cài đặt chương trình bằng ngôn ngữ lập trình Python. Chương trình có sử dụng gói thư viện Scikit-learn [Pedregosa et al., 2011] có các giải thuật máy học véctơ hỗ trợ (SVM), rừng ngẫu nhiên (RF), mạng nơron (NN). Tất cả các thí nghiệm được chạy trên máy tính với Intel(R) Xeon(R) CPU X5570 @2.93GHz (16 CPUs), RAM 10Gb và được cài đặt trên hệ điều hành Windows Server® 2008 Enterprise. B. Điều chỉnh tham số Tập dữ liệu được biểu diễn về dạng bảng gồm 420 dòng (câu hỏi) trong 512 cột (từ vựng) và 36 lớp (36 thủ tục hành chính). Tập dữ liệu được xáo trộn lấy ngẫu nhiên 2/3 làm tập huấn luyện (287 câu hỏi) và 1/3 tập dữ liệu còn lại (133 câu hỏi) làm tập kiểm tra kết quả trả lời. Chúng tôi sử dụng tập dữ liệu huấn luyện để điều chỉnh tham số cho các mô hình phân lớp và sử dụng độ chính xác của từng mô hình để đánh giá kết quả. Kết quả thực nghiệm là trung bình của các lần thực nghiệm. Các giá trị của bộ tham số trong mô hình được lựa chọn là kết quả trả về có độ chính xác cao nhất (có so sánh thông tin kết quả với thủ tục tương ứng). Sau đó huấn luyện lại mô hình trên tập dữ liệu huấn luyện sử dụng bộ tham số tối ưu tìm được. Sử dụng mô hình đã huấn luyện để phân lớp tập dữ liệu kiểm tra. C. Kết quả thực nghiệm Mô hình máy học SVM, chúng tôi đề xuất sử dụng hàm nhân phi tuyến RBF do tính tổng quát của nó, các tham số được sử dụng trong mô hình SVM: kernel='rbf', c, , probability=True. Mô hình máy học SVM cần điều chỉnh 2 tham số: tham số của hàm nhân RBF và hằng số c được sử dụng để chỉnh độ rộng lề và lỗi. Để tìm mô hình tối ưu trong nghiên cứu này, với tập dữ liệu đã được thu thập và tổ chức lưu trữ như trên, chúng tôi đề xuất tìm kiếm bộ 2 tham số trong các giá trị như Bảng 1. Bảng 1. Bảng giá trị các tham số cần điều chỉnh cho mô hình dự báo máy học véctơ hỗ trợ TT Tham số Giá trị Số giá trị 1 0.25, 0.5, 0.75, 1, 1.25, 1.5, 1.75, 2, 2.25, 2.5, 2.75, 3, 3.25, 3.5, 3.75, 4 16 2 c 1, 10, 100, 1000, 10000 5 Tổng số bộ tham số ( , c) khác nhau 80
Nguyễn Thanh Điền, Phạm Thế Phi, Phạm Công Xuyên, Đỗ Thanh Nghị 161 Bảng 2. Minh họa kết quả thực nghiệm phân lớp với mô hình SVM A B c 1 2 3 4 50 100 bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: 1 0.25 40.988 45.837 59.798 41.862 51.859 51.621 bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: 3.75 79.002 93.524 82.753 73.406 77.008 72.62 bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: 10 0.5 49.068 47.588 48.631 51.983 56.644 50.437 bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: 0.75 49.447 55.022 48.561 58.444 50.293 50.21 bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: 3.5 93.863 94.559 91.196 89.007 81.792 85.837 bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: 100 1 54.917 55.078 61.356 46.497 54.725 53.796 bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: 4 91.89 90.719 93.20 90.626 84.092 84.822 bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: 1000 1 58.107 55.655 60.702 53.361 54.783 53.521 bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: 3.75 94.735 90.198 93.244 93.033 88.081 87.51 bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: 4 80.469 93.45 95.443 95.454 89.103 89.768 bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: 10000 1 49.644 58.884 48.122 60.653 57.187 55.429 bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: 4 89.585 88.706 95.881 94.885 88.339 89.888 Ghi chú: Cột A: Bao gồm 4 lớp thuộc tính và độ chính xác tương ứng, mỗi một lớp thuộc tính là kết quả sau 1 lần chạy mô hình thực nghiệm; Cột B: (50). Độ chính xác trung bình sau 50 lần chạy mô hình thực nghiệm, (100). Độ chính xác trung bình sau 100 lần chạy mô hình thực nghiệm. Từ các bộ tham số ở Bảng 1, giải thuật máy học SVM cần thử nghiệm tất cả 80 bộ gồm 2 tham số ( , c) khác nhau để chọn ra mô hình tối ưu cho lớp thuộc tính có độ chính xác là cao nhất. Chúng tôi lần lượt cho các bộ tham số qua mô hình máy học SVM và thu được kết quả thực nghiệm Bảng 2. Từ kết quả thực nghiệm trong Bảng 2 cho thấy giải thuật máy học SVM đã thử tất cả 80 bộ tham số khác nhau để chọn ra bộ tham số (c, ) sao cho độ chính xác là cao nhất. Qua 80 bộ tham số đã thực nghiệm, các mô hình đều có lớp thuộc tính giống nhau (bc_tt_0022) và bộ tham số có độ chính xác cao nhất được chúng tôi đề xuất là: c = 1000; = 4. Tương tự, giải thuật rừng ngẫu nhiên xây dựng mô hình dự báo cần điều chỉnh 3 tham số: độ sâu tối đa của cây quyết định (max_depth không giới hạn), tổng số cây cần xây dựng trong rừng (n_estimators), số thuộc tính ngẫu nhiên (max_features bằng căn bậc 2 của số lượng thuộc tính n_features) được sử dụng để tính phân hoạch tại nút trong của cây quyết định. Chúng tôi đề xuất tìm kiếm tổng số cây trong cần xây dựng là 5, 10, 50, 100, 150. Kết quả thử nghiệm thu được như Bảng 3. Bảng 3. Minh họa kết quả thực nghiệm phân lớp với mô hình rừng ngẫu nhiên A 50 100 n 1 2 Y N Y N bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0002: bc_tt_0022: bc_tt_0002: 5 71.875 97.024 64.515 54.061 65.407 50.345 xip_tt_0011: bc_tt_0022: bc_tt_0022: xip_tt_0001: bc_tt_0022: bc_tt_0002: 10 12.658 100.0 92.701 100.0 93.527 95.926 bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0002: bc_tt_0022: bc_tt_0002: 50 100.0 50.0 94.444 52.778 94.928 51.667 xip_tt_0001: bc_tt_0022: bc_tt_0022: bc_tt_0002: bc_tt_0022: bc_tt_0002: 100 100.0 50.0 87.0 50.0 79.57 56.061 bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0002: bc_tt_0022: bc_tt_0002: 150 95.440 91.704 96.875 55.556 97.101 55.172 Ghi chú: Cột A: Bao gồm 2 lớp thuộc tính với độ chính xác tương ứng, mỗi một lớp thuộc tính là kết quả sau 1 lần chạy mô hình thực nghiệm Cột B: (50). Độ chính xác trung bình sau 50 lần chạy mô hình thực nghiệm, (100). Độ chính xác trung bình sau 100 lần chạy mô hình thực nghiệm, Y là độ chính xác và lớp thuộc tính đúng, N là độ chính xác và lớp thuộc tính không đúng. Qua kết quả thực nghiệm cho thấy mô hình rừng ngẫu nhiên cho độ chính xác cao nhất với số cây trong rừng là n_estimators =150 cây. Giải thuật mạng nơron xây dựng mô hình phân lớp với các tham số: solver= „lbfgs‟, anpha, một lớp ẩn với số lượng nơron trong một lớp là k (hidden_layer_sizes(k, )), random_state, learning_rate= „constant‟. Chúng tôi đề xuất tìm kiếm bộ 3 tham số tối ưu với các giá trị trong Bảng 4.
162 HỆ THỐNG HỖ TRỢ HỎI ĐÁP THỦ TỤC HÀNH CHÍNH Bảng 4. Bảng giá trị các tham số cần điều chỉnh cho mô hình mạng nơron TT Tham số Giá trị Số giá trị 1 hidden_layer_sizes(k, ) 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 12 2 alpha 1e-1 2 3 random_state 1 1 Tổng số bộ tham số (hidden_layer_sizes(k, ), alpha, random_state) 24 Để tìm bộ tham số tối ưu cho mô hình dự báo mạng nơron, chúng tôi tiến hành lần lượt thử nghiệm các bộ tham số từ 24 bộ tham số đã đề xuất trong Bảng 4 và kết quả thực nghiệm được trình bày như Bảng 5. Bảng 5. Kết quả thực nghiệm phân lớp với mô hình mạng nơron hidden_layer A B alpha _sizes(k, ) 1 2 3 4 50 100 bc_tt_0022: lh_tt_9999: bc_tt_0022: bc_tt_0003: bc_tt_0022: bc_tt_0022: 1e-1 1 41.863 32.756 14.363 32.275 43.552 34.117 bc_tt_0022: lh_tt_9999: bc_tt_0001: bc_tt_0022: bc_tt_0022: bc_tt_0022: 1e-1 2 58.515 64.742 22.148 49.445 66.662 68.293 bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: 1e-1 3 98.916 99.291 86.517 99.392 88.854 86.286 bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: 1e-1 4 96.589 97.791 99.537 97.549 96.124 95.729 bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: 1e-1 5 87.21 99.526 82.345 99.825 98.126 97.04 1e-1 bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: 6 99.754 98.408 99.059 99.596 99.062 98.854 bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: 1e-1 7 98.745 99.311 99.096 99.058 99.27 99.283 bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: 1e-1 8 99.688 99.456 99.277 99.766 99.344 99.443 bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: 1e-1 9 99.447 99.56 99.513 99.452 99.425 99.491 bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: 1e-1 10 99.729 99.266 99.24 99.508 99.541 99.526 bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: 1e-1 11 99.508 99.655 99.596 99.747 99.591 99.589 bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: 1e-1 12 99.711 99.599 99.628 99.636 99.623 99.615 1e-1 bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: 13 99.579 99.63 99.806 99.575 99.653 99.63 bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: 1e-1 14 99.817 99.728 99.652 99.824 99.628 99.623 bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: 1e-1 15 99.75 99.72 99.672 99.509 99.668 99.643 bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: bc_tt_0022: 1e-1 16 99.763 99.699 99.763 99.687 99.684 99.635 Ghi chú: Cột A: Bao gồm 4 lớp thuộc tính với độ chính xác tương ứng, mỗi một lớp thuộc tính là kết quả sau 1 lần chạy mô hình thực nghiệm; Cột B: (50). Độ chính xác trung bình sau 50 lần chạy mô hình thực nghiệm, (100). Độ chính xác trung bình sau 100 lần chạy mô hình thực nghiệm. Kết quả thực nghiệm Bảng 5 cho thấy, giải thuật mạng nơron đã duyệt qua tất cả các bộ tham số trong Bảng 4, độ chính xác giữa các bộ tham số không có nhiều chênh lệch và có cùng lớp thuộc tính (bc_tt_0022). Với giá trị anpha = 1e- 1, chúng tôi tiếp tục tăng số lượng k nơron trong hidden_layer_sizes(k, ) thì độ chính xác ở từng mô hình dự báo thay đổi không đáng kể và phân lớp thuộc tính ở mỗi mô hình dự báo đều giống nhau (Bảng 6). Nên chúng tôi đưa ra đề xuất bộ tham số sử dụng (có thể xem là tối ưu) cho mô hình dự báo này là: alpha=1e-1, random_state=1 và hidden_layer_sizes(10,). Qua kết quả thu được từ thực nghiệm trên tập dữ liệu kiểm tra, chúng tôi đã đề xuất các bộ tham số tối ưu bằng phương pháp thử sai cho từng mô hình máy học SVM, rừng ngẫu nhiên và mạng nơron thu được kết quả lần lượt là: 89,768 %, 97,101 % và 99,526 %. Từ kết quả thực nghiệm này, chúng tôi đề xuất sử dụng mô hình máy học mạng nơron để phân lớp câu hỏi cho hệ thống hỗ trợ hỏi đáp thủ tục hành chính của chúng tôi.
Nguyễn Thanh Điền, Phạm Thế Phi, Phạm Công Xuyên, Đỗ Thanh Nghị 163 Bảng 6. Kết quả thực nghiệm phân lớp trên mô hình dự báo mạng nơron với số lượng k nơron trong lớp ẩn tăng dần. Stt Hidden_layer_sizes Lớp thuộc tính và độ chính xác Thời gian (giây) 1 10 bc_tt_0022: 99.511 1.4140000820159912 2 20 bc_tt_0022: 99.703 1.6459999084472656 3 30 bc_tt_0022: 99.428 1.6349999904632568 4 40 bc_tt_0022: 99.661 1.8220000267028809 5 50 bc_tt_0022: 99.76 1.5099999904632568 6 60 bc_tt_0022: 99.75 1.7590000629425049 7 70 bc_tt_0022: 99.424 1.8199999332427979 8 80 bc_tt_0022: 99.810 1.8519999980926514 9 90 bc_tt_0022: 99.616 2.193000078201294 10 100 bc_tt_0022: 99.641 2.294999837875366 11 110 bc_tt_0022: 99.614 2.077000141143799 12 120 bc_tt_0022: 99.372 2.740999937057495 13 130 bc_tt_0022: 99.734 2.507000207901001 14 140 bc_tt_0022: 99.582 2.013000011444092 15 150 bc_tt_0022: 99.791 2.133000135421753 16 200 bc_tt_0022: 99.671 2.4559998512268066 IV. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Chúng tôi vừa trình bày phương pháp xây dựng hệ thống trả lời tự động cho người dùng các câu hỏi liên quan đến thủ tục hành chính, thành phần hồ sơ của một thủ tục, thời gian xử lý một thủ tục, biểu mẫu của thủ tục. Hệ thống dựa trên tiếp cận sử dụng corpus và máy học tự động. Chúng tôi đã thu thập và biên soạn tập dữ liệu gồm 420 câu hỏi, trả lời của 36 thủ tục hành chính thuộc lĩnh vực Báo chí, Xuất bản - In - Phát hành của đơn vị cung cấp là Sở Thông tin và Truyền thông thành phố Cần Thơ. Tiếp theo sau là bước tách từ và biểu diễn câu hỏi theo mô hình túi từ. Bước cuối cùng là huấn luyện các bộ phân lớp như máy học để phân lớp tự động các câu hỏi. Kết quả thực nghiệm thu được trên tập kiểm thử của các mô hình máy học SVM, rừng ngẫu nhiên, mạng nơron, có độ chính xác lần lượt là 89,768 %, 97,101 % và 99,526 %. Chúng tôi đề xuất sử dụng mô hình mạng nơron để trả lời tự động thủ tục hành chính cho câu hỏi đặt ra từ người dùng. Trong tương lai gần, chúng tôi bổ sung thêm các câu hỏi vào tập dữ liệu để cải thiện khả năng đáp ứng của hệ thống. Có thể mở rộng hệ thống này cho các vấn đề tương tự trong thực tiễn. TÀI LIỆU THAM KHẢO [1] S. Fabrizio. “Machine learning in automated text categorization”, ACM Computing Surveys 34: 1-47, 2002. [2] C.D. Manning, P. Raghavan and H. Schütze, “Introduction to Information Retrieval Introduction”, 2008. [3] D. Jurafsky and J-H. Martin.: “Speech and Language Processing”, Computer Science, Stanford University, 2017. [4] U. Fayyad, G. Piatetsky-Shapiro, và P. Smyth, “Knowledge Discovery and Data Mining: Towards a Unifying Framework”, 1996. [5] S. Dumais, J. Platt, D. Heckerman and M. Sahami. “Inductive learning algorithms and representations for text categorization”, In: Proceedings of the Seventh International Conference on Information and Knowledge Management, ACM, 1998, 148-155. [6] Y. LeCun.: Une Procédure d‟Apprentissage pour Réseau à Seuil Asymétrique. in:Cognitiva 85: A la Frontiere de l‟Intelligence Artificielle des Sciences de la Conaissance des Neurosciences, 1985, pp. 599-604. [7] D-D. Lewis and W-A. Gale. “A sequential algorithm for training text classifiers”, In: Proceedings of the 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Springer- Verlag New York, 1994, 3-12. [8] X. Wu and V. Kumar, Top 10 Algorithms in Data Mining. Chapman & Hall/CRC. 2009. [9] T. Hastie, R. Tibshirani and J. Friedman, The elements of statistical learning: data mining, inference and prediction. 2005. [10] L. Breiman, J. Friedman, C. J.Stone, và R. A. Olshen, Classification and Regression Trees. Chapman & Hall, New York. 1984. [11] J. Ross, Q. Morgan, và K. Publishers, C4.5: Programs for Machine Learning. 1993. [12] L. Breiman, “Bagging predictors”, Machine Learning 24(2):123-140. 1996. [13] L. Breiman, “Random forests”, Machine Learning 45(1):5-32. 2001. [14] V. N. Vapnik, The Nature of Statistical Learning Theory. Springer-Verlag. 1995. [15] T-N. Do, N-K. Pham, T-P. Pham, M-T. Tran-Nguyen, H-H. Nguyen, “Parallel multiclass stochastic gradient descent algorithms for classifying million images with very-high-dimensional signatures into thousands classes”. 2014.
164 HỆ THỐNG HỖ TRỢ HỎI ĐÁP THỦ TỤC HÀNH CHÍNH [16] C. Bousquet, 5 Ways Chatbots Could Transform Government Services. GovTech. 2017. [17] H. Mehr, H. Ash, D. Fellow, “Artificial Intelligence for Citizen Services and Government”, Ash Center for Democratic Governance and Innovation Harvard Kennedy School, số p.h August, 2017. [18] Đỗ Thanh Nghị và Văn Thị Xuân Hồng, “Tìm kiếm chuyên gia với phản hồi từ người dùng và kNN-C4.4”, kNN- RF-C4.4. 2003. [19] F-J. Provost and P. Domingos, “Tree Induction for Probability-Based Ranking”, Machine Learning 52(3): 199- 215. 2003. [20] Nguyễn Bình Trọng, “Hệ thống trả lời tự động tiếng Việt cho công tác tuyển sinh đại học”, Đề tài nghiên cứu khoa học, ĐHLH. 2012. [21] Nguyễn Thanh Tuấn, Xây dựng hệ thống hỏi đáp tự động cho câu hỏi định nghĩa trong Y khoa. 2011. [22] Nguyễn Văn Minh Đức, Phạm Quốc Huy và Dương Văn Phước Thiện, Sumi Chatbot - Tiếng Việt. 2017. [23] N-K. Phạm M-T. Trần-Nguyễn, T-P. Phạm, T-N. Đỗ.: “So sánh các phương pháp tách từ trong phân lớp văn bản tiếng Việt”, Kỷ yếu hội thảo FAIR 2016, pp. 668-677. [24] T-N. Đỗ, T. Hoàng.: “Chatbot cho sinh viên CNTT”, Kỷ yếu hội thảo FAIR 2019, pp. 85-92. AUTOMATED ANSWERING SYSTEM FOR ADMINISTRATIVE PROCEDURES Nguyen Thanh Dien, Pham The Phi, Pham Cong Xuyen, Do Thanh Nghi ABSTRACT: In this paper, we propose an automated answering system for administrative procedures. The system automatically answers questions related to procedures that users ask the agency of administrative procedures. The user asks the textual question, the system receives and classifies the question, to determine the procedural answer corresponding to the user’s question. We have collected and pre-processed a textual dataset of 420 questions and answers from 36 administrative procedures in the field of Press, Publishing - Print - Publishing of the provider, Department of Information and Communications in Can Tho city. We train classifiers such as support vector machines, random forest, and neural network to classify the dataset with accuracy of 89.768 %, 97.101 % and 99.526 % respectively. From the experimental results, we propose to use the neural network in our automated answering system.