intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Xây dựng hệ thống hỏi đáp trực tuyến bằng phương pháp máy học để tự động hóa quy trình tiếp nhận câu hỏi áp dụng cho chính quyền địa phương tỉnh Tây Ninh

Chia sẻ: Cảnh Phương Thanh | Ngày: | Loại File: PDF | Số trang:88

14
lượt xem
5
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Đề án "Xây dựng hệ thống hỏi đáp trực tuyến bằng phương pháp máy học để tự động hóa quy trình tiếp nhận câu hỏi áp dụng cho chính quyền địa phương tỉnh Tây Ninh" được thực hiện với mục tiêu nhằm xây dựng hệ thống khai thác dữ liệu hỏi đáp trực tuyến cung cấp cho chính quyền tỉnh Tây Ninh để xác định các vấn đề đang tồn đọng, những lĩnh vực mà người dân địa phương quan tâm để thực thi chính sách cho phù hợp và tự động hóa quy trình tiếp nhận của chính quyền địa phương. Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Xây dựng hệ thống hỏi đáp trực tuyến bằng phương pháp máy học để tự động hóa quy trình tiếp nhận câu hỏi áp dụng cho chính quyền địa phương tỉnh Tây Ninh

  1. HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG ----------------------------------- NGUYỄN TRUNG HIẾU XÂY DỰNG HỆ THỐNG HỎI ĐÁP TRỰC TUYẾN BẰNG PHƯƠNG PHÁP MÁY HỌC ĐỂ TỰ ĐỘNG HÓA QUY TRÌNH TIẾP NHẬN CÂU HỎI ÁP DỤNG CHO CHÍNH QUYỀN ĐỊA PHƯƠNG TỈNH TÂY NINH ĐỀ ÁN TỐT NGHIỆP THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) THÀNH PHỐ HỒ CHÍ MINH – NĂM 2023
  2. HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG -------------------------------------- NGUYỄN TRUNG HIẾU XÂY DỰNG HỆ THỐNG HỎI ĐÁP TRỰC TUYẾN BẰNG PHƯƠNG PHÁP MÁY HỌC ĐỂ TỰ ĐỘNG HÓA QUY TRÌNH TIẾP NHẬN CÂU HỎI ÁP DỤNG CHO CHÍNH QUYỀN ĐỊA PHƯƠNG TỈNH TÂY NINH Chuyên ngành: Hệ thống thông tin Mã số: 8.48.01.04 ĐỀ ÁN TỐT NGHIỆP THẠC SỸ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. TRẦN CÔNG HÙNG THÀNH PHỐ HỒ CHÍ MINH – NĂM 2023
  3. i LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của riêng tôi. Các các số liệu, kết quả nêu trong đề án tốt nghiệp là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Tp. Hồ Chí Minh, ngày 12 tháng 10 năm 2023 Học viên thực hiện đề án Nguyễn Trung Hiếu
  4. ii LỜI CẢM ƠN Đầu tiên tôi xin gửi lời cảm ơn chân thành đến PGS.TS. Trần Công Hùng, người thầy đã tận tâm và nhiệt tình trong việc hướng dẫn và động viên tôi suốt quá trình thực hiện đề án. Sự hỗ trợ của người thầy giúp tôi định hướng và hoàn thành mục tiêu nghiên cứu. Tôi xin gửi lời tri ân đến quý Thầy, Cô khoa Đào tạo Sau đại học, Học viện Công nghệ Bưu chính Viễn thông cơ sở thành phố Hồ Chí Minh, đã đồng hành và tận tình giảng dạy và hỗ trợ tôi suốt thời gian học tập và nghiên cứu. Tôi xin cảm ơn lãnh đạo Sở Thông tin và Truyền Thông tỉnh Tây Ninh đã cho phép tôi sử dụng dữ liệu của tỉnh và tạo điều kiện thuận lợi cho tôi trong quá trình học tập và nghiên cứu. Tôi cũng xin gửi lời cảm ơn đến tất cả đồng nghiệp đã động viên, hỗ trợ và đóng góp những ý kiến quý báu giúp tôi hoàn thiện nghiên cứu này. Tp. Hồ Chí Minh, ngày 12 tháng 10 năm 2023 Học viên thực hiện đề án Nguyễn Trung Hiếu
  5. iii MỤC LỤC LỜI CAM ĐOAN .......................................................................................................i LỜI CẢM ƠN ............................................................................................................ii MỤC LỤC ................................................................................................................ iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT ...........................................vi DANH SÁCH BẢNG ..............................................................................................vii DANH SÁCH HÌNH VẼ ....................................................................................... viii MỞ ĐẦU .................................................................................................................... 1 1. Lý do chọn đề án ............................................................................................... 1 2. Tổng quan vấn đề nghiên cứu .......................................................................... 2 3. Mục tiêu nghiên cứu.......................................................................................... 3 4. Đối tượng và phạm vi nghiên cứu .................................................................... 4 5. Phương pháp nghiên cứu.................................................................................. 5 CHƯƠNG 1 - TỔNG QUAN VẤN ĐỀ NGHIÊN CỨU...................................... 7 1.1. Tổng quan về Cổng hỏi đáp trực tuyến........................................................ 7 1.2. Các công trình nghiên cứu trên thế giới .................................................... 12 1.3. Các công trình nghiên cứu trong nước ...................................................... 14 CHƯƠNG 2 - CƠ SỞ LÝ THUYẾT ................................................................... 15 2.1. Tổng quan về AI và Machine Learning ..................................................... 15 2.2. Phương pháp biểu diễn dữ liệu ................................................................... 16 2.2.1. Phương pháp Tf-idf Vector ..................................................................... 16 2.2.2. Phương pháp Count Vectorization .......................................................... 17
  6. iv 2.2.3. Phương pháp FastText ............................................................................ 18 2.3. Các phương pháp phân lớp ......................................................................... 18 2.3.1. Phân lớp với Support Vector Machines (SVM) ....................................... 20 2.3.2. Phân lớp với Naive Bayes ....................................................................... 22 2.3.3. Phân lớp với k-Nearest Neighbors (k-NN) .............................................. 25 CHƯƠNG 3 - ĐỀ XUẤT PHƯƠNG PHÁP XÂY DỰNG BỘ DỮ .................. 28 3.1. Mô hình thực nghiệm bài toán .................................................................... 28 3.2. Thu thập dữ liệu ........................................................................................... 29 3.3. Chuẩn hóa dữ liệu ........................................................................................ 30 3.4. Các bước thực hiện ...................................................................................... 33 CHƯƠNG 4 - KẾT QUẢ THỰC NGHIỆM ...................................................... 35 4.1. Môi trường và dữ liệu thực nghiệm ............................................................ 35 4.1.1. Môi trường thực nghiệm ......................................................................... 35 4.1.2. Dữ liệu thực nghiệm ................................................................................ 35 4.1.3. Chuẩn hóa dữ liệu ................................................................................... 37 4.1.4. Huấn luyện dữ liệu .................................................................................. 40 4.2. Kết quả thực nghiệm .................................................................................... 40 4.2.1. Kết quả mô hình Support Vector Machine .............................................. 40 4.2.1.1. Phương pháp Tf-idf .......................................................................... 40 4.2.1.2. Phương pháp CountVectorizer ......................................................... 43 4.2.1.3. Phương pháp Fasttext ....................................................................... 46 4.2.2. Kết quả mô hình Naive Bayes ................................................................. 48
  7. v 4.2.2.1. Phương pháp Tf-idf .......................................................................... 48 4.2.2.2. Phương pháp CountVectorizer ......................................................... 51 4.2.2.3. Phương pháp Fasttext ....................................................................... 53 4.2.3. Kết quả mô hình K-NN ............................................................................ 56 4.2.3.1. Phương pháp Tf-idf .......................................................................... 56 4.2.3.2. Phương pháp CountVectorizer ......................................................... 59 4.2.3.3. Phương pháp Fasttext ....................................................................... 61 4.2.4. Kết quả tổng hợp ..................................................................................... 64 4.3. Kết luận thực nghiệm................................................................................... 65 KẾT LUẬN .............................................................................................................. 66 DANH MỤC TÀI LIỆU THAM KHẢO ............................................................... 68
  8. vi DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT VIẾT TẮT TIẾNG ANH TIẾNG VIỆT AI Artificial intelligence Trí tuệ nhân tạo CNN Convolutional Neural Networks Mạng nơ ron tích chập DL Deep Learning Học sâu DT Decision Tree Cây quyết định Tần suất nghịch đảo của một từ IDF Inverse Document Frequency trong tập văn bản. IE Information Extraction Trích xuất thông tin IR Information Retrieval Tìm kiếm và truy xuất thông tin KNN K-Nearest Neighbor Thuật toán K-Nearest Neighbor LR Logistic Regression Hồi quy Logistic ML Machine Learning Học máy NB Naive Bayes Thuật toán Naive Bayes RF RandomForest Classifier Trình phân loại rừng ngẫu nhiên RNN Recurrent Neural Networks Mạng thần kinh hồi quy SVM Support Vector Machine Máy vector hỗ trợ TF Term Frequency Tần số xuất hiện của văn bản
  9. vii DANH SÁCH BẢNG Bảng 4.1: Nguồn dữ liệu thực nghiệm ...................................................................... 35 Bảng 4.2: Thống kê số lượng câu hỏi sau khi chuẩn hóa theo đơn vị ...................... 37 Bảng 4.3: Chia tập dữ liệu huấn luyện ...................................................................... 40 Bảng 4.4: Kết quả mô hình SVM sử dụng TF-IDF .................................................. 40 Bảng 4.5: Kết quả mô hình SVM sử dụng CountVectorizer .................................... 43 Bảng 4.6: Kết quả mô hình SVM sử dụng Fasttext .................................................. 46 Bảng 4.7: Kết quả mô hình Naive Bayes sử dụng TF-IDF ....................................... 48 Bảng 4.8: Kết quả mô hình Navie Bays sử dụng CountVectorizer .......................... 51 Bảng 4.9: Kết quả mô hình Navie Bays (GaussianNB) sử dụng Fasttext ................ 54 Bảng 4.10: Kết quả mô hình K-NN sử dụng Tf-idf .................................................. 56 Bảng 4.11: Kết quả mô hình K-NN sử dụng CountVectorizer ................................. 59 Bảng 4.12: Kết quả mô hình k-NN sử dụng FastText .............................................. 61 Bảng 4.13: Kết quả tổng hợp .................................................................................... 64
  10. viii DANH SÁCH HÌNH VẼ Hình 1.1: Hệ thống hỏi đáp trực tuyến của tỉnh Tây Ninh.......................................... 8 Hình 1.2: Sơ đồ tổng quát trình tự vận hành của hệ thống hỏi đáp ............................ 9 Hình 1.3: Biểu mẫu nhập câu hỏi của người dân, doanh nghiệp .............................. 10 Hình 1.4: Đơn vị điều phối đọc, chọn đơn vị chuyển câu hỏi để trả lời ................... 11 Hình 2.1: Mô hình SVM ........................................................................................... 21 Hình 2.2: Mô hình phân lớp Naive Bayes ................................................................. 24 Hình 2.3: Mô hình k-NN (k-Nearest Neighbors) ...................................................... 25 Hình 3.1: Mô hình thực nghiệm ................................................................................ 28 Hình 3.2: Câu hỏi đã được trả lời trên trang hỏi đáp ................................................ 30 Hình 3.3: Câu hỏi có nội dung gây cho việc phân loại sai ........................................ 31 Hình 3.4: Hai bảng mã khác nhau, việc so sánh khác nhau ...................................... 31 Hình 3.5: Kết quả sau xử lý kiểu gõ .......................................................................... 32 Hình 3.6: Kết quả tách từ .......................................................................................... 32 Hình 3.7: Kết quả loại bỏ từ không có nghĩa ............................................................ 32 Hình 4.1: Ma trận nhầm lẫn SVM sử dụng Tf-idf .................................................... 43 Hình 4.2: Ma trận nhầm lẫn SVM sử dụng CountVectorizer ................................... 45 Hình 4.3: Ma trận nhầm lẫn SVM sử dụng Fasttext ................................................. 48 Hình 4.4: Ma trận nhầm lẫn mô hình Naive Bayes sử dụng Tf-idf .......................... 50 Hình 4.5: Ma trận nhầm lẫn mô hình Naive Bayes sử dụng CountVectorizer ......... 53 Hình 4.6: Ma trận nhầm lẫn mô hình Naive Bayes sử dụng Fasttext ....................... 56 Hình 4.7: Ma trận nhầm lẫn mô hình KNN sử dụng Tf-idf ...................................... 58 Hình 4.8: Ma trận nhầm lẫn mô hình KNN sử dụng CountVectorizer ..................... 61 Hình 4.9: Ma trận nhầm lẫn mô hình k-NN sử dụng Fasttext .................................. 63 Hình 4.10: Kết quả phân loại của câu 1 .................................................................... 65 Hình 4.11: Kết quả phân loại của câu 2 .................................................................... 65
  11. 1 MỞ ĐẦU 1. Lý do chọn đề án Hiện nay với sự bùng nổ công nghệ thì việc người dùng tiếp cận kho dữ liệu khổng lồ là rất dễ dàng và nhanh chóng. Tuy nhiên các thông tin nhận được không chính thống tồn tại vấn nạn tin rác, tin giả tràn lan làm ảnh hưởng rất lớn đến hoạt động của cơ quan, tổ chức, người dùng. Trong giai đoạn hiện nay, các ngành, lĩnh vực, đặc biệt là trong các cơ quan Nhà nước đang tiến hành chuyển đổi số để chuẩn hóa quy trình, số hóa dữ liệu đầu vào, tự động hóa quy trình giải quyết thủ tục hành chính theo hướng nhanh, chính xác tạo sự tiện lợi cho người dân. Đồng thời, việc ứng dụng công nghệ trí tuệ nhân tạo (AI), xử lý ngôn ngữ tự nhiên, các công nghệ tìm kiếm và truy xuất thông tin (IR), trích xuất thông tin (IE) vào các hệ thống hỏi đáp trực tuyến nhằm tăng tốc độ phản hồi, trả về các thông tin hữu ích cho người dùng… rất phổ biến. Trong bối cảnh đó, Sở Thông tin và Truyên thông đã xây dựng hệ thống hỏi đáp trực tuyến tỉnh Tây Ninh tại địa chỉ https://hoidap.tayninh.gov.vn nhằm giải đáp mọi thắc mắc của người dân trên địa bàn tỉnh Tây Ninh. Tuy nhiên, với số lượng lớn câu hỏi được gửi về, đòi hỏi phải bộ phận quản trị tinh chỉnh hình thức và phân loại thủ công theo các lĩnh vực đến cơ quan chuyên môn phụ trách xử lý, gây rất nhiều khó khăn về thời gian, nhân sự cũng như chất lượng của hệ thống. Chính vì vậy, tôi chọn và nghiên cứu đề án “Xây dựng hệ thống hỏi đáp trực tuyến bằng phương pháp máy học để tự động hóa quy trình tiếp nhận câu hỏi áp dụng cho chính quyền địa phương tỉnh Tây Ninh” với mục tiêu là tiết kiệm được nhân lực và thời gian trong quá trình tiếp nhận, và giải quyết các yêu cầu của người dân trên địa bàn tỉnh.
  12. 2 2. Tổng quan vấn đề nghiên cứu Bài toán Xây dựng hệ thống hỏi đáp trực tuyến bằng phương pháp máy học để tự động hóa quy trình tiếp nhận câu hỏi áp dụng cho chính quyền địa phương tỉnh Tây Ninh thuộc lĩnh vực xử lý ngôn ngữ tự nhiên, đây là một bài toán khó do bản chất của ngôn ngữ tự nhiên mang tính đa nghĩa, nhập nhằng nên việc phản hồi hoặc trả lời đúng đủ nội dung cần hỏi hay nói cách khác là đúng ngữ nghĩa câu hỏi là vấn đề không nhỏ. Thách thức của bài toán ở đây là xác định ngữ nghĩa của câu một cách chính xác. Tuy nhiên giữa câu hỏi và câu trả lời còn tồn tại các quan hệ “ngầm” hay phụ thuộc vào ngữ cảnh. Bài toán đặt ra nhiều thách thức để phát hiện ra được câu trả lời phù hợp nhất, thông tin hữu ích nhất. Bài toán xây dựng hệ thống hỏi đáp đòi hỏi phải giải quyết các khía cạnh quan trọng sau: Hiểu ngữ nghĩa: hiểu ngữ nghĩa của câu hỏi là rất quan trọng để diễn giải và xử lý câu hỏi một cách chính xác. Điều này bao gồm việc hiểu ý định đằng sau câu hỏi và xác định nhu cầu thông tin cơ bản. Trích xuất câu trả lời: Trích xuất câu trả lời phù hợp từ ngữ cảnh hoặc cơ sở dữ liệu kiến thức đòi hỏi các kỹ thuật mạnh mẽ về tìm kiếm và trích xuất thông tin. Điều này bao gồm việc tìm ra câu trả lời phù hợp nhất và mang tính thông tin nhất để trực tiếp đáp ứng câu hỏi được đặt ra. Phụ thuộc vào ngữ cảnh: Cần xem xét các mối quan hệ phụ thuộc vào ngữ cảnh giữa câu hỏi và câu trả lời để cung cấp những câu trả lời chính xác và phù hợp với ngữ cảnh. Điều này bao gồm việc xem xét văn bản xung quanh, các tương tác trước đó và kiến thức về lĩnh vực cụ thể để cải thiện chất lượng của câu trả lời. Hiểu ngôn ngữ tự nhiên: Phát triển các kỹ thuật để xử lý các đặc điểm phức tạp của ngôn ngữ tự nhiên như sự nhập nhằng, biểu đạt ẩn dụ và biến thể ngôn ngữ là rất quan trọng để hiệu quả trong việc xử lý và diễn giải câu hỏi và tạo ra câu trả lời có ý nghĩa.
  13. 3 Các tiêu chí đánh giá: Xác định các tiêu chí đánh giá phù hợp là rất quan trọng để đánh giá hiệu suất của hệ thống hỏi đáp. Các tiêu chí như độ chính xác, độ phủ, F1-score và độ chính xác có thể được sử dụng để đo lường khả năng của hệ thống cung cấp câu trả lời đúng và liên quan. Tóm lại, xây dựng hệ thống hỏi đáp đòi hỏi phải vượt qua các thách thức liên quan đến hiểu ý nghĩa của câu hỏi, trích xuất câu trả lời phù hợp, xem xét các mối quan hệ phụ thuộc vào ngữ cảnh và hiệu quả xử lý các đặc điểm phức tạp của ngôn ngữ tự nhiên. Để giải quyết những thách thức này, cần áp dụng các kỹ thuật tiên tiến trong xử lý ngôn ngữ tự nhiên và học máy, kết hợp với một khung đánh giá toàn diện để đánh giá hiệu suất của hệ thống. 3. Mục tiêu nghiên cứu Mục tiêu tổng quan Xây dựng hệ thống khai thác dữ liệu hỏi đáp trực tuyến cung cấp cho chính quyền tỉnh Tây Ninh để xác định các vấn đề đang tồn đọng, những lĩnh vực mà người dân địa phương quan tâm để thực thi chính sách cho phù hợp và tự động hóa quy trình tiếp nhận của chính quyền địa phương. Mục tiêu cụ thể Xây dựng bộ công cụ AI phân tích các yêu cầu câu hỏi để tự động hóa quy trình tiếp nhận chuyển cho các đơn vị một cách tự động trên địa bàn tỉnh. Mục đích của nghiên cứu trên là xây dựng hệ thống hỏi đáp trực tuyến bằng phương pháp máy học để tự động hóa quy trình tiếp nhận câu hỏi áp dụng cho chính quyền địa phương tỉnh Tây Ninh. Nghiên cứu nhằm giải quyết các vấn đề thời gian, nhân lực và chất lượng mà hệ thống hỏi đáp trực tuyến hiện tại gặp phải. Mục tiêu là tiết kiệm thời gian và nhân lực trong quá trình tiếp nhận và giải quyết các yêu cầu của người dân trên địa bàn tỉnh, đồng thời cung cấp câu trả lời chính xác và hữu ích cho người dùng. Nghiên cứu cũng hướng đến việc áp dụng các phương pháp xử lý ngôn ngữ tự nhiên, tìm kiếm
  14. 4 thông tin và rút trích thông tin để xác định ý nghĩa của câu hỏi, tìm kiếm câu trả lời và trích xuất thông tin liên quan. Mục tiêu cuối cùng là xây dựng một hệ thống hỏi đáp trực tuyến hiệu quả, giúp tối ưu hóa tài nguyên và cải thiện trải nghiệm của người dùng khi tương tác với chính quyền địa phương. 4. Đối tượng và phạm vi nghiên cứu Đối tượng nghiên cứu Đối tượng nghiên cứu của đề án này là cơ sở dữ liệu của hệ thống hỏi đáp trực tuyến địa phương tỉnh Tây Ninh. Nghiên cứu sẽ sử dụng các phương pháp máy học để xây dựng hệ thống tự động hóa quy trình tiếp nhận câu hỏi của người dân chuyển cho các đơn vị trả lời câu hỏi. Cụ thể hơn, nghiên cứu sẽ sử dụng các thuật toán học máy (ML) để: - Phân tích các yêu cầu của người dân từ các câu hỏi trên hệ thống hỏi đáp trực tuyến. - Xác định các chủ đề chính mà người dân hỏi thuộc lĩnh vực nào? Thuộc khu vực nào? - Xác định những nhu cầu của người dân mà chính quyền địa phương cần phải giải quyết. - Tự động hóa quy trình tiếp nhận và phân loại câu hỏi từ người dân. Kết quả của nghiên cứu sẽ được sử dụng để cải thiện hiệu quả của hệ thống hỏi đáp trực tuyến và giải quyết những nhu cầu của người dân một cách hiệu quả hơn. Phạm vi nghiên cứu Nghiên cứu phân tích cơ sở dữ liệu của hệ thống hỏi đáp trực tuyến này bằng cách sử dụng phương pháp máy học để xác định nhu cầu của người dân và tự động hóa quy trình tiếp nhận, phân loại câu hỏi. Nghiên cứu sẽ bao gồm việc tổng quan về Cổng hỏi đáp trực tuyến và hệ thống tự động hóa quy trình tiếp nhận câu hỏi, phân
  15. 5 tích các công trình liên quan trong và ngoài nước, đề xuất thuật toán máy học và mô phỏng và thực nghiệm thuật toán đề xuất. Kết quả nghiên cứu sẽ được đánh giá bằng các tiêu chí phù hợp. Hệ thống hỏi đáp trực tuyến tỉnh Tây Ninh chỉ trả lời các câu hỏi thuộc thẩm quyền, chức năng của các cơ quan nhà nước. Người phản ánh thông tin, đặt câu hỏi cần cung cấp đầy đủ thông tin liên hệ để đơn vị trả lời có thể liên hệ khi cần thiết. Hệ thống hỏi đáp trực tuyến tỉnh Tây Ninh không là cơ sở pháp lý để giải quyết các quan hệ dân sự. Hệ thống hỏi đáp trực tuyến của tỉnh Tây Ninh là một trong số ít tỉnh có lượng dữ liệu đáng kể về tương tác giữa cơ quan nhà nước và người dân, doanh nghiệp được lưu trữ tại trung tâm tích hợp dữ liệu của tỉnh trên nền tảng kỹ thuật số. Hệ thống này đã giúp người dân tiếp cận thông tin từ chính quyền một cách nhanh chóng, chính xác, minh bạch, rõ ràng và thuận tiện. 5. Phương pháp nghiên cứu Nghiên cứu lý thuyết - Tìm các tài liệu, sách liên quan tới các phương pháp máy học để tiết kiệm được nhân lực và thời gian trong quá trình tiếp nhận, và giải quyết các yêu cầu của người dân trên địa bàn tỉnh thông qua hệ thống hỏi đáp trực tuyến. - Tìm tham khảo tài liệu từ những hội thảo, công trình, đề tài thực hiện trong và ngoài nước. - Tìm tài liệu, sách liên quan tới các từ khóa: text classification, text categorization, feature selection, feature extraction, language modeling, naive bayes, support vector machines, k-nearest neighbours
  16. 6 Nghiên cứu thực nghiệm - Xác định nhu cầu của người dân và tự động hóa quy trình tiếp nhận câu hỏi của người dân chuyển cho chính quyền thông qua bộ cơ sở dữ liệu từ hệ thống hỏi đáp trực tuyến. - Phân tích yêu cầu: Phân tích nhu cầu của người dân và chính quyền địa phương để xác định các câu hỏi thường gặp và hỏi đáp liên quan đến hệ thống. - Xử lý dữ liệu: Sử dụng các kỹ thuật xử lý ngôn ngữ tự nhiên để tiền xử lý các câu hỏi và trả lời trong hệ thống. - Áp dụng máy học: Sử dụng các giải thuật máy học, như học máy phân loại, học máy tìm kiếm, học máy cảm xúc, để phân tích cơ sở dữ liệu và xác định nhu cầu của người dùng. - Đánh giá hiệu quả: Sử dụng các chỉ số đánh giá, như độ chính xác, độ tương tự, độ phù hợp.
  17. 7 CHƯƠNG 1 - TỔNG QUAN VẤN ĐỀ NGHIÊN CỨU 1.1. Tổng quan về Cổng hỏi đáp trực tuyến Hệ thống hỏi đáp trực tuyến là hệ thống thông tin điện tử để người dân, tổ chức và doanh nghiệp phản ánh thông tin và đặt ra những câu hỏi liên quan đến các vấn đề cần quan tâm. Hệ thống dựa vào thông tin đầu vào là câu hỏi dưới dạng ngôn ngữ tự nhiên của người dùng, trả lại các đoạn văn bản ngắn chứa câu trả lời trực tiếp cho câu hỏi hoặc chứa những thông tin sát với mong muốn của người dùng. Hệ thống Tự động hóa quy trình tiếp nhận câu hỏi dựa vào một số kỹ thuật và các tiêu chí khác nhau, có thể được phân loại như sau: - Phân loại theo miền ứng dụng: Các câu hỏi được phân loại dựa trên miền ứng dụng cụ thể mà hệ thống đang xử lý như: miền như luật pháp, y tế, giáo dục, giao thông... giúp hệ thống hiểu rõ ngữ cảnh và áp dụng kiến thức chuyên môn liên quan đến miền đó. - Phân loại theo khả năng trả lời mẫu hỏi: dựa trên khả năng có sẵn của hệ thống để trả lời mẫu hỏi. Có thể có các danh sách câu trả lời mẫu hoặc cơ sở dữ liệu kiến thức để hệ thống trả lời những câu hỏi phổ biến một cách tự động. - Phân loại theo mức độ dài, ngắn của đoạn đối thoại giữa người dùng và hệ thống thành các loại ngắn gọn, trung bình hoặc dài để xử lý hiệu quả. - Phân loại theo hướng tiếp cận: hướng tiếp cận dựa trên quy tắc, hướng tiếp cận thống kê, hướng tiếp cận dựa trên máy học hoặc hướng tiếp cận dựa trên trích xuất thông tin. Những phân loại này giúp xác định và tự động hóa quy trình tiếp nhận câu hỏi một cách hiệu quả, đồng thời cung cấp cho hệ thống khả năng xử lý đa dạng các loại câu hỏi và cung cấp câu trả lời phù hợp cho người dùng. Tỉnh Tây Ninh đã xây dựng hệ thống hỏi đáp trực tuyến từ năm 2016 nhằm giải đáp nhanh chóng, minh bạch các vấn đề mà dư luận quan tâm. Hệ thống này hiện đang hoạt động ở mức hỏi đáp của công dân và chính quyền trả lời, chưa xây dựng
  18. 8 được hệ thống tổng hợp, khai thác và sử dụng dữ liệu kiến nghị của công dân phục vụ công tác quản lý nhà nước. Hình 1.1: Hệ thống hỏi đáp trực tuyến của tỉnh Tây Ninh Hệ thống hỏi đáp trực tuyến tỉnh Tây Ninh là kênh thông tin kết nối giữa cơ quan nhà nước với người dân, tổ chức, doanh nghiệp thông qua Internet. Hệ thống này có các chức năng và nhiệm vụ sau: - Là kênh thông tin để người dân, tổ chức, doanh nghiệp phản ánh thông tin, đặt câu hỏi đến các cơ quan nhà nước. - Là kho dữ liệu thông tin giúp người dân, tổ chức, doanh nghiệp tra cứu những thông tin liên quan đến chủ đề cần quan tâm. - Tiếp nhận thông tin, câu hỏi 24/24 giờ vào tất cả các ngày trong tuần. - Trả lời các câu hỏi của người dân, tổ chức, doanh nghiệp một cách chính xác, kịp thời, đáp ứng nhu cầu của người dân.
  19. 9 Hình 1.2: Sơ đồ tổng quát trình tự vận hành của hệ thống hỏi đáp Trình tự vận hành của hệ thống hỏi đáp trực tuyến tỉnh Tây Ninh như sau: 1. Người dân, tổ chức, doanh nghiệp truy cập vào hệ thống hỏi đáp trực tuyến tỉnh Tây Ninh để phản ánh thông tin, đặt câu hỏi.
  20. 10 Hình 1.3: Biểu mẫu nhập câu hỏi của người dân, doanh nghiệp 2. Đơn vị điều phối tiếp nhận thông tin, câu hỏi và chuyển cho đơn vị trả lời.
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2