Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Xây dựng hệ thống hỏi đáp trực tuyến bằng phương pháp máy học để tự động hóa quy trình tiếp nhận câu hỏi áp dụng cho chính quyền địa phương tỉnh Tây Ninh
lượt xem 5
download
Đề án "Xây dựng hệ thống hỏi đáp trực tuyến bằng phương pháp máy học để tự động hóa quy trình tiếp nhận câu hỏi áp dụng cho chính quyền địa phương tỉnh Tây Ninh" được thực hiện với mục tiêu nhằm xây dựng hệ thống khai thác dữ liệu hỏi đáp trực tuyến cung cấp cho chính quyền tỉnh Tây Ninh để xác định các vấn đề đang tồn đọng, những lĩnh vực mà người dân địa phương quan tâm để thực thi chính sách cho phù hợp và tự động hóa quy trình tiếp nhận của chính quyền địa phương. Mời các bạn cùng tham khảo!
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Xây dựng hệ thống hỏi đáp trực tuyến bằng phương pháp máy học để tự động hóa quy trình tiếp nhận câu hỏi áp dụng cho chính quyền địa phương tỉnh Tây Ninh
- HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG ----------------------------------- NGUYỄN TRUNG HIẾU XÂY DỰNG HỆ THỐNG HỎI ĐÁP TRỰC TUYẾN BẰNG PHƯƠNG PHÁP MÁY HỌC ĐỂ TỰ ĐỘNG HÓA QUY TRÌNH TIẾP NHẬN CÂU HỎI ÁP DỤNG CHO CHÍNH QUYỀN ĐỊA PHƯƠNG TỈNH TÂY NINH ĐỀ ÁN TỐT NGHIỆP THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) THÀNH PHỐ HỒ CHÍ MINH – NĂM 2023
- HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG -------------------------------------- NGUYỄN TRUNG HIẾU XÂY DỰNG HỆ THỐNG HỎI ĐÁP TRỰC TUYẾN BẰNG PHƯƠNG PHÁP MÁY HỌC ĐỂ TỰ ĐỘNG HÓA QUY TRÌNH TIẾP NHẬN CÂU HỎI ÁP DỤNG CHO CHÍNH QUYỀN ĐỊA PHƯƠNG TỈNH TÂY NINH Chuyên ngành: Hệ thống thông tin Mã số: 8.48.01.04 ĐỀ ÁN TỐT NGHIỆP THẠC SỸ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. TRẦN CÔNG HÙNG THÀNH PHỐ HỒ CHÍ MINH – NĂM 2023
- i LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của riêng tôi. Các các số liệu, kết quả nêu trong đề án tốt nghiệp là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Tp. Hồ Chí Minh, ngày 12 tháng 10 năm 2023 Học viên thực hiện đề án Nguyễn Trung Hiếu
- ii LỜI CẢM ƠN Đầu tiên tôi xin gửi lời cảm ơn chân thành đến PGS.TS. Trần Công Hùng, người thầy đã tận tâm và nhiệt tình trong việc hướng dẫn và động viên tôi suốt quá trình thực hiện đề án. Sự hỗ trợ của người thầy giúp tôi định hướng và hoàn thành mục tiêu nghiên cứu. Tôi xin gửi lời tri ân đến quý Thầy, Cô khoa Đào tạo Sau đại học, Học viện Công nghệ Bưu chính Viễn thông cơ sở thành phố Hồ Chí Minh, đã đồng hành và tận tình giảng dạy và hỗ trợ tôi suốt thời gian học tập và nghiên cứu. Tôi xin cảm ơn lãnh đạo Sở Thông tin và Truyền Thông tỉnh Tây Ninh đã cho phép tôi sử dụng dữ liệu của tỉnh và tạo điều kiện thuận lợi cho tôi trong quá trình học tập và nghiên cứu. Tôi cũng xin gửi lời cảm ơn đến tất cả đồng nghiệp đã động viên, hỗ trợ và đóng góp những ý kiến quý báu giúp tôi hoàn thiện nghiên cứu này. Tp. Hồ Chí Minh, ngày 12 tháng 10 năm 2023 Học viên thực hiện đề án Nguyễn Trung Hiếu
- iii MỤC LỤC LỜI CAM ĐOAN .......................................................................................................i LỜI CẢM ƠN ............................................................................................................ii MỤC LỤC ................................................................................................................ iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT ...........................................vi DANH SÁCH BẢNG ..............................................................................................vii DANH SÁCH HÌNH VẼ ....................................................................................... viii MỞ ĐẦU .................................................................................................................... 1 1. Lý do chọn đề án ............................................................................................... 1 2. Tổng quan vấn đề nghiên cứu .......................................................................... 2 3. Mục tiêu nghiên cứu.......................................................................................... 3 4. Đối tượng và phạm vi nghiên cứu .................................................................... 4 5. Phương pháp nghiên cứu.................................................................................. 5 CHƯƠNG 1 - TỔNG QUAN VẤN ĐỀ NGHIÊN CỨU...................................... 7 1.1. Tổng quan về Cổng hỏi đáp trực tuyến........................................................ 7 1.2. Các công trình nghiên cứu trên thế giới .................................................... 12 1.3. Các công trình nghiên cứu trong nước ...................................................... 14 CHƯƠNG 2 - CƠ SỞ LÝ THUYẾT ................................................................... 15 2.1. Tổng quan về AI và Machine Learning ..................................................... 15 2.2. Phương pháp biểu diễn dữ liệu ................................................................... 16 2.2.1. Phương pháp Tf-idf Vector ..................................................................... 16 2.2.2. Phương pháp Count Vectorization .......................................................... 17
- iv 2.2.3. Phương pháp FastText ............................................................................ 18 2.3. Các phương pháp phân lớp ......................................................................... 18 2.3.1. Phân lớp với Support Vector Machines (SVM) ....................................... 20 2.3.2. Phân lớp với Naive Bayes ....................................................................... 22 2.3.3. Phân lớp với k-Nearest Neighbors (k-NN) .............................................. 25 CHƯƠNG 3 - ĐỀ XUẤT PHƯƠNG PHÁP XÂY DỰNG BỘ DỮ .................. 28 3.1. Mô hình thực nghiệm bài toán .................................................................... 28 3.2. Thu thập dữ liệu ........................................................................................... 29 3.3. Chuẩn hóa dữ liệu ........................................................................................ 30 3.4. Các bước thực hiện ...................................................................................... 33 CHƯƠNG 4 - KẾT QUẢ THỰC NGHIỆM ...................................................... 35 4.1. Môi trường và dữ liệu thực nghiệm ............................................................ 35 4.1.1. Môi trường thực nghiệm ......................................................................... 35 4.1.2. Dữ liệu thực nghiệm ................................................................................ 35 4.1.3. Chuẩn hóa dữ liệu ................................................................................... 37 4.1.4. Huấn luyện dữ liệu .................................................................................. 40 4.2. Kết quả thực nghiệm .................................................................................... 40 4.2.1. Kết quả mô hình Support Vector Machine .............................................. 40 4.2.1.1. Phương pháp Tf-idf .......................................................................... 40 4.2.1.2. Phương pháp CountVectorizer ......................................................... 43 4.2.1.3. Phương pháp Fasttext ....................................................................... 46 4.2.2. Kết quả mô hình Naive Bayes ................................................................. 48
- v 4.2.2.1. Phương pháp Tf-idf .......................................................................... 48 4.2.2.2. Phương pháp CountVectorizer ......................................................... 51 4.2.2.3. Phương pháp Fasttext ....................................................................... 53 4.2.3. Kết quả mô hình K-NN ............................................................................ 56 4.2.3.1. Phương pháp Tf-idf .......................................................................... 56 4.2.3.2. Phương pháp CountVectorizer ......................................................... 59 4.2.3.3. Phương pháp Fasttext ....................................................................... 61 4.2.4. Kết quả tổng hợp ..................................................................................... 64 4.3. Kết luận thực nghiệm................................................................................... 65 KẾT LUẬN .............................................................................................................. 66 DANH MỤC TÀI LIỆU THAM KHẢO ............................................................... 68
- vi DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT VIẾT TẮT TIẾNG ANH TIẾNG VIỆT AI Artificial intelligence Trí tuệ nhân tạo CNN Convolutional Neural Networks Mạng nơ ron tích chập DL Deep Learning Học sâu DT Decision Tree Cây quyết định Tần suất nghịch đảo của một từ IDF Inverse Document Frequency trong tập văn bản. IE Information Extraction Trích xuất thông tin IR Information Retrieval Tìm kiếm và truy xuất thông tin KNN K-Nearest Neighbor Thuật toán K-Nearest Neighbor LR Logistic Regression Hồi quy Logistic ML Machine Learning Học máy NB Naive Bayes Thuật toán Naive Bayes RF RandomForest Classifier Trình phân loại rừng ngẫu nhiên RNN Recurrent Neural Networks Mạng thần kinh hồi quy SVM Support Vector Machine Máy vector hỗ trợ TF Term Frequency Tần số xuất hiện của văn bản
- vii DANH SÁCH BẢNG Bảng 4.1: Nguồn dữ liệu thực nghiệm ...................................................................... 35 Bảng 4.2: Thống kê số lượng câu hỏi sau khi chuẩn hóa theo đơn vị ...................... 37 Bảng 4.3: Chia tập dữ liệu huấn luyện ...................................................................... 40 Bảng 4.4: Kết quả mô hình SVM sử dụng TF-IDF .................................................. 40 Bảng 4.5: Kết quả mô hình SVM sử dụng CountVectorizer .................................... 43 Bảng 4.6: Kết quả mô hình SVM sử dụng Fasttext .................................................. 46 Bảng 4.7: Kết quả mô hình Naive Bayes sử dụng TF-IDF ....................................... 48 Bảng 4.8: Kết quả mô hình Navie Bays sử dụng CountVectorizer .......................... 51 Bảng 4.9: Kết quả mô hình Navie Bays (GaussianNB) sử dụng Fasttext ................ 54 Bảng 4.10: Kết quả mô hình K-NN sử dụng Tf-idf .................................................. 56 Bảng 4.11: Kết quả mô hình K-NN sử dụng CountVectorizer ................................. 59 Bảng 4.12: Kết quả mô hình k-NN sử dụng FastText .............................................. 61 Bảng 4.13: Kết quả tổng hợp .................................................................................... 64
- viii DANH SÁCH HÌNH VẼ Hình 1.1: Hệ thống hỏi đáp trực tuyến của tỉnh Tây Ninh.......................................... 8 Hình 1.2: Sơ đồ tổng quát trình tự vận hành của hệ thống hỏi đáp ............................ 9 Hình 1.3: Biểu mẫu nhập câu hỏi của người dân, doanh nghiệp .............................. 10 Hình 1.4: Đơn vị điều phối đọc, chọn đơn vị chuyển câu hỏi để trả lời ................... 11 Hình 2.1: Mô hình SVM ........................................................................................... 21 Hình 2.2: Mô hình phân lớp Naive Bayes ................................................................. 24 Hình 2.3: Mô hình k-NN (k-Nearest Neighbors) ...................................................... 25 Hình 3.1: Mô hình thực nghiệm ................................................................................ 28 Hình 3.2: Câu hỏi đã được trả lời trên trang hỏi đáp ................................................ 30 Hình 3.3: Câu hỏi có nội dung gây cho việc phân loại sai ........................................ 31 Hình 3.4: Hai bảng mã khác nhau, việc so sánh khác nhau ...................................... 31 Hình 3.5: Kết quả sau xử lý kiểu gõ .......................................................................... 32 Hình 3.6: Kết quả tách từ .......................................................................................... 32 Hình 3.7: Kết quả loại bỏ từ không có nghĩa ............................................................ 32 Hình 4.1: Ma trận nhầm lẫn SVM sử dụng Tf-idf .................................................... 43 Hình 4.2: Ma trận nhầm lẫn SVM sử dụng CountVectorizer ................................... 45 Hình 4.3: Ma trận nhầm lẫn SVM sử dụng Fasttext ................................................. 48 Hình 4.4: Ma trận nhầm lẫn mô hình Naive Bayes sử dụng Tf-idf .......................... 50 Hình 4.5: Ma trận nhầm lẫn mô hình Naive Bayes sử dụng CountVectorizer ......... 53 Hình 4.6: Ma trận nhầm lẫn mô hình Naive Bayes sử dụng Fasttext ....................... 56 Hình 4.7: Ma trận nhầm lẫn mô hình KNN sử dụng Tf-idf ...................................... 58 Hình 4.8: Ma trận nhầm lẫn mô hình KNN sử dụng CountVectorizer ..................... 61 Hình 4.9: Ma trận nhầm lẫn mô hình k-NN sử dụng Fasttext .................................. 63 Hình 4.10: Kết quả phân loại của câu 1 .................................................................... 65 Hình 4.11: Kết quả phân loại của câu 2 .................................................................... 65
- 1 MỞ ĐẦU 1. Lý do chọn đề án Hiện nay với sự bùng nổ công nghệ thì việc người dùng tiếp cận kho dữ liệu khổng lồ là rất dễ dàng và nhanh chóng. Tuy nhiên các thông tin nhận được không chính thống tồn tại vấn nạn tin rác, tin giả tràn lan làm ảnh hưởng rất lớn đến hoạt động của cơ quan, tổ chức, người dùng. Trong giai đoạn hiện nay, các ngành, lĩnh vực, đặc biệt là trong các cơ quan Nhà nước đang tiến hành chuyển đổi số để chuẩn hóa quy trình, số hóa dữ liệu đầu vào, tự động hóa quy trình giải quyết thủ tục hành chính theo hướng nhanh, chính xác tạo sự tiện lợi cho người dân. Đồng thời, việc ứng dụng công nghệ trí tuệ nhân tạo (AI), xử lý ngôn ngữ tự nhiên, các công nghệ tìm kiếm và truy xuất thông tin (IR), trích xuất thông tin (IE) vào các hệ thống hỏi đáp trực tuyến nhằm tăng tốc độ phản hồi, trả về các thông tin hữu ích cho người dùng… rất phổ biến. Trong bối cảnh đó, Sở Thông tin và Truyên thông đã xây dựng hệ thống hỏi đáp trực tuyến tỉnh Tây Ninh tại địa chỉ https://hoidap.tayninh.gov.vn nhằm giải đáp mọi thắc mắc của người dân trên địa bàn tỉnh Tây Ninh. Tuy nhiên, với số lượng lớn câu hỏi được gửi về, đòi hỏi phải bộ phận quản trị tinh chỉnh hình thức và phân loại thủ công theo các lĩnh vực đến cơ quan chuyên môn phụ trách xử lý, gây rất nhiều khó khăn về thời gian, nhân sự cũng như chất lượng của hệ thống. Chính vì vậy, tôi chọn và nghiên cứu đề án “Xây dựng hệ thống hỏi đáp trực tuyến bằng phương pháp máy học để tự động hóa quy trình tiếp nhận câu hỏi áp dụng cho chính quyền địa phương tỉnh Tây Ninh” với mục tiêu là tiết kiệm được nhân lực và thời gian trong quá trình tiếp nhận, và giải quyết các yêu cầu của người dân trên địa bàn tỉnh.
- 2 2. Tổng quan vấn đề nghiên cứu Bài toán Xây dựng hệ thống hỏi đáp trực tuyến bằng phương pháp máy học để tự động hóa quy trình tiếp nhận câu hỏi áp dụng cho chính quyền địa phương tỉnh Tây Ninh thuộc lĩnh vực xử lý ngôn ngữ tự nhiên, đây là một bài toán khó do bản chất của ngôn ngữ tự nhiên mang tính đa nghĩa, nhập nhằng nên việc phản hồi hoặc trả lời đúng đủ nội dung cần hỏi hay nói cách khác là đúng ngữ nghĩa câu hỏi là vấn đề không nhỏ. Thách thức của bài toán ở đây là xác định ngữ nghĩa của câu một cách chính xác. Tuy nhiên giữa câu hỏi và câu trả lời còn tồn tại các quan hệ “ngầm” hay phụ thuộc vào ngữ cảnh. Bài toán đặt ra nhiều thách thức để phát hiện ra được câu trả lời phù hợp nhất, thông tin hữu ích nhất. Bài toán xây dựng hệ thống hỏi đáp đòi hỏi phải giải quyết các khía cạnh quan trọng sau: Hiểu ngữ nghĩa: hiểu ngữ nghĩa của câu hỏi là rất quan trọng để diễn giải và xử lý câu hỏi một cách chính xác. Điều này bao gồm việc hiểu ý định đằng sau câu hỏi và xác định nhu cầu thông tin cơ bản. Trích xuất câu trả lời: Trích xuất câu trả lời phù hợp từ ngữ cảnh hoặc cơ sở dữ liệu kiến thức đòi hỏi các kỹ thuật mạnh mẽ về tìm kiếm và trích xuất thông tin. Điều này bao gồm việc tìm ra câu trả lời phù hợp nhất và mang tính thông tin nhất để trực tiếp đáp ứng câu hỏi được đặt ra. Phụ thuộc vào ngữ cảnh: Cần xem xét các mối quan hệ phụ thuộc vào ngữ cảnh giữa câu hỏi và câu trả lời để cung cấp những câu trả lời chính xác và phù hợp với ngữ cảnh. Điều này bao gồm việc xem xét văn bản xung quanh, các tương tác trước đó và kiến thức về lĩnh vực cụ thể để cải thiện chất lượng của câu trả lời. Hiểu ngôn ngữ tự nhiên: Phát triển các kỹ thuật để xử lý các đặc điểm phức tạp của ngôn ngữ tự nhiên như sự nhập nhằng, biểu đạt ẩn dụ và biến thể ngôn ngữ là rất quan trọng để hiệu quả trong việc xử lý và diễn giải câu hỏi và tạo ra câu trả lời có ý nghĩa.
- 3 Các tiêu chí đánh giá: Xác định các tiêu chí đánh giá phù hợp là rất quan trọng để đánh giá hiệu suất của hệ thống hỏi đáp. Các tiêu chí như độ chính xác, độ phủ, F1-score và độ chính xác có thể được sử dụng để đo lường khả năng của hệ thống cung cấp câu trả lời đúng và liên quan. Tóm lại, xây dựng hệ thống hỏi đáp đòi hỏi phải vượt qua các thách thức liên quan đến hiểu ý nghĩa của câu hỏi, trích xuất câu trả lời phù hợp, xem xét các mối quan hệ phụ thuộc vào ngữ cảnh và hiệu quả xử lý các đặc điểm phức tạp của ngôn ngữ tự nhiên. Để giải quyết những thách thức này, cần áp dụng các kỹ thuật tiên tiến trong xử lý ngôn ngữ tự nhiên và học máy, kết hợp với một khung đánh giá toàn diện để đánh giá hiệu suất của hệ thống. 3. Mục tiêu nghiên cứu Mục tiêu tổng quan Xây dựng hệ thống khai thác dữ liệu hỏi đáp trực tuyến cung cấp cho chính quyền tỉnh Tây Ninh để xác định các vấn đề đang tồn đọng, những lĩnh vực mà người dân địa phương quan tâm để thực thi chính sách cho phù hợp và tự động hóa quy trình tiếp nhận của chính quyền địa phương. Mục tiêu cụ thể Xây dựng bộ công cụ AI phân tích các yêu cầu câu hỏi để tự động hóa quy trình tiếp nhận chuyển cho các đơn vị một cách tự động trên địa bàn tỉnh. Mục đích của nghiên cứu trên là xây dựng hệ thống hỏi đáp trực tuyến bằng phương pháp máy học để tự động hóa quy trình tiếp nhận câu hỏi áp dụng cho chính quyền địa phương tỉnh Tây Ninh. Nghiên cứu nhằm giải quyết các vấn đề thời gian, nhân lực và chất lượng mà hệ thống hỏi đáp trực tuyến hiện tại gặp phải. Mục tiêu là tiết kiệm thời gian và nhân lực trong quá trình tiếp nhận và giải quyết các yêu cầu của người dân trên địa bàn tỉnh, đồng thời cung cấp câu trả lời chính xác và hữu ích cho người dùng. Nghiên cứu cũng hướng đến việc áp dụng các phương pháp xử lý ngôn ngữ tự nhiên, tìm kiếm
- 4 thông tin và rút trích thông tin để xác định ý nghĩa của câu hỏi, tìm kiếm câu trả lời và trích xuất thông tin liên quan. Mục tiêu cuối cùng là xây dựng một hệ thống hỏi đáp trực tuyến hiệu quả, giúp tối ưu hóa tài nguyên và cải thiện trải nghiệm của người dùng khi tương tác với chính quyền địa phương. 4. Đối tượng và phạm vi nghiên cứu Đối tượng nghiên cứu Đối tượng nghiên cứu của đề án này là cơ sở dữ liệu của hệ thống hỏi đáp trực tuyến địa phương tỉnh Tây Ninh. Nghiên cứu sẽ sử dụng các phương pháp máy học để xây dựng hệ thống tự động hóa quy trình tiếp nhận câu hỏi của người dân chuyển cho các đơn vị trả lời câu hỏi. Cụ thể hơn, nghiên cứu sẽ sử dụng các thuật toán học máy (ML) để: - Phân tích các yêu cầu của người dân từ các câu hỏi trên hệ thống hỏi đáp trực tuyến. - Xác định các chủ đề chính mà người dân hỏi thuộc lĩnh vực nào? Thuộc khu vực nào? - Xác định những nhu cầu của người dân mà chính quyền địa phương cần phải giải quyết. - Tự động hóa quy trình tiếp nhận và phân loại câu hỏi từ người dân. Kết quả của nghiên cứu sẽ được sử dụng để cải thiện hiệu quả của hệ thống hỏi đáp trực tuyến và giải quyết những nhu cầu của người dân một cách hiệu quả hơn. Phạm vi nghiên cứu Nghiên cứu phân tích cơ sở dữ liệu của hệ thống hỏi đáp trực tuyến này bằng cách sử dụng phương pháp máy học để xác định nhu cầu của người dân và tự động hóa quy trình tiếp nhận, phân loại câu hỏi. Nghiên cứu sẽ bao gồm việc tổng quan về Cổng hỏi đáp trực tuyến và hệ thống tự động hóa quy trình tiếp nhận câu hỏi, phân
- 5 tích các công trình liên quan trong và ngoài nước, đề xuất thuật toán máy học và mô phỏng và thực nghiệm thuật toán đề xuất. Kết quả nghiên cứu sẽ được đánh giá bằng các tiêu chí phù hợp. Hệ thống hỏi đáp trực tuyến tỉnh Tây Ninh chỉ trả lời các câu hỏi thuộc thẩm quyền, chức năng của các cơ quan nhà nước. Người phản ánh thông tin, đặt câu hỏi cần cung cấp đầy đủ thông tin liên hệ để đơn vị trả lời có thể liên hệ khi cần thiết. Hệ thống hỏi đáp trực tuyến tỉnh Tây Ninh không là cơ sở pháp lý để giải quyết các quan hệ dân sự. Hệ thống hỏi đáp trực tuyến của tỉnh Tây Ninh là một trong số ít tỉnh có lượng dữ liệu đáng kể về tương tác giữa cơ quan nhà nước và người dân, doanh nghiệp được lưu trữ tại trung tâm tích hợp dữ liệu của tỉnh trên nền tảng kỹ thuật số. Hệ thống này đã giúp người dân tiếp cận thông tin từ chính quyền một cách nhanh chóng, chính xác, minh bạch, rõ ràng và thuận tiện. 5. Phương pháp nghiên cứu Nghiên cứu lý thuyết - Tìm các tài liệu, sách liên quan tới các phương pháp máy học để tiết kiệm được nhân lực và thời gian trong quá trình tiếp nhận, và giải quyết các yêu cầu của người dân trên địa bàn tỉnh thông qua hệ thống hỏi đáp trực tuyến. - Tìm tham khảo tài liệu từ những hội thảo, công trình, đề tài thực hiện trong và ngoài nước. - Tìm tài liệu, sách liên quan tới các từ khóa: text classification, text categorization, feature selection, feature extraction, language modeling, naive bayes, support vector machines, k-nearest neighbours
- 6 Nghiên cứu thực nghiệm - Xác định nhu cầu của người dân và tự động hóa quy trình tiếp nhận câu hỏi của người dân chuyển cho chính quyền thông qua bộ cơ sở dữ liệu từ hệ thống hỏi đáp trực tuyến. - Phân tích yêu cầu: Phân tích nhu cầu của người dân và chính quyền địa phương để xác định các câu hỏi thường gặp và hỏi đáp liên quan đến hệ thống. - Xử lý dữ liệu: Sử dụng các kỹ thuật xử lý ngôn ngữ tự nhiên để tiền xử lý các câu hỏi và trả lời trong hệ thống. - Áp dụng máy học: Sử dụng các giải thuật máy học, như học máy phân loại, học máy tìm kiếm, học máy cảm xúc, để phân tích cơ sở dữ liệu và xác định nhu cầu của người dùng. - Đánh giá hiệu quả: Sử dụng các chỉ số đánh giá, như độ chính xác, độ tương tự, độ phù hợp.
- 7 CHƯƠNG 1 - TỔNG QUAN VẤN ĐỀ NGHIÊN CỨU 1.1. Tổng quan về Cổng hỏi đáp trực tuyến Hệ thống hỏi đáp trực tuyến là hệ thống thông tin điện tử để người dân, tổ chức và doanh nghiệp phản ánh thông tin và đặt ra những câu hỏi liên quan đến các vấn đề cần quan tâm. Hệ thống dựa vào thông tin đầu vào là câu hỏi dưới dạng ngôn ngữ tự nhiên của người dùng, trả lại các đoạn văn bản ngắn chứa câu trả lời trực tiếp cho câu hỏi hoặc chứa những thông tin sát với mong muốn của người dùng. Hệ thống Tự động hóa quy trình tiếp nhận câu hỏi dựa vào một số kỹ thuật và các tiêu chí khác nhau, có thể được phân loại như sau: - Phân loại theo miền ứng dụng: Các câu hỏi được phân loại dựa trên miền ứng dụng cụ thể mà hệ thống đang xử lý như: miền như luật pháp, y tế, giáo dục, giao thông... giúp hệ thống hiểu rõ ngữ cảnh và áp dụng kiến thức chuyên môn liên quan đến miền đó. - Phân loại theo khả năng trả lời mẫu hỏi: dựa trên khả năng có sẵn của hệ thống để trả lời mẫu hỏi. Có thể có các danh sách câu trả lời mẫu hoặc cơ sở dữ liệu kiến thức để hệ thống trả lời những câu hỏi phổ biến một cách tự động. - Phân loại theo mức độ dài, ngắn của đoạn đối thoại giữa người dùng và hệ thống thành các loại ngắn gọn, trung bình hoặc dài để xử lý hiệu quả. - Phân loại theo hướng tiếp cận: hướng tiếp cận dựa trên quy tắc, hướng tiếp cận thống kê, hướng tiếp cận dựa trên máy học hoặc hướng tiếp cận dựa trên trích xuất thông tin. Những phân loại này giúp xác định và tự động hóa quy trình tiếp nhận câu hỏi một cách hiệu quả, đồng thời cung cấp cho hệ thống khả năng xử lý đa dạng các loại câu hỏi và cung cấp câu trả lời phù hợp cho người dùng. Tỉnh Tây Ninh đã xây dựng hệ thống hỏi đáp trực tuyến từ năm 2016 nhằm giải đáp nhanh chóng, minh bạch các vấn đề mà dư luận quan tâm. Hệ thống này hiện đang hoạt động ở mức hỏi đáp của công dân và chính quyền trả lời, chưa xây dựng
- 8 được hệ thống tổng hợp, khai thác và sử dụng dữ liệu kiến nghị của công dân phục vụ công tác quản lý nhà nước. Hình 1.1: Hệ thống hỏi đáp trực tuyến của tỉnh Tây Ninh Hệ thống hỏi đáp trực tuyến tỉnh Tây Ninh là kênh thông tin kết nối giữa cơ quan nhà nước với người dân, tổ chức, doanh nghiệp thông qua Internet. Hệ thống này có các chức năng và nhiệm vụ sau: - Là kênh thông tin để người dân, tổ chức, doanh nghiệp phản ánh thông tin, đặt câu hỏi đến các cơ quan nhà nước. - Là kho dữ liệu thông tin giúp người dân, tổ chức, doanh nghiệp tra cứu những thông tin liên quan đến chủ đề cần quan tâm. - Tiếp nhận thông tin, câu hỏi 24/24 giờ vào tất cả các ngày trong tuần. - Trả lời các câu hỏi của người dân, tổ chức, doanh nghiệp một cách chính xác, kịp thời, đáp ứng nhu cầu của người dân.
- 9 Hình 1.2: Sơ đồ tổng quát trình tự vận hành của hệ thống hỏi đáp Trình tự vận hành của hệ thống hỏi đáp trực tuyến tỉnh Tây Ninh như sau: 1. Người dân, tổ chức, doanh nghiệp truy cập vào hệ thống hỏi đáp trực tuyến tỉnh Tây Ninh để phản ánh thông tin, đặt câu hỏi.
- 10 Hình 1.3: Biểu mẫu nhập câu hỏi của người dân, doanh nghiệp 2. Đơn vị điều phối tiếp nhận thông tin, câu hỏi và chuyển cho đơn vị trả lời.
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Nghiên cứu dữ liệu không gian phát triển trạm BTS 5G
73 p | 16 | 11
-
Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Áp dụng học máy trong các ứng dụng thông minh dựa trên chuỗi khối blockchain
75 p | 14 | 9
-
Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Xây dựng hệ khuyến nghị về sản phẩm vay cho khách hàng ở công ty tài chính
61 p | 16 | 8
-
Đề án tốt nghiệp Thạc sĩ Quản lý Kinh tế: Quản lý hoạt động kiểm tra hàng hóa nhập khẩu của các doanh nghiệp trên địa bàn tỉnh Quảng Ninh
106 p | 14 | 7
-
Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Dự đoán tuổi và giới tính bằng phương pháp học sâu
77 p | 12 | 6
-
Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Nghiên cứu mô hình học sâu để dự báo khách hàng rời mạng viễn thông ở Tây Ninh
71 p | 26 | 5
-
Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Phương pháp học tập liên kết trong môi trường thông minh dựa trên nền tảng Blockchain
85 p | 10 | 5
-
Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Nghiên cứu các thuật toán chuyển tiếp đa chặng sử dụng bề mặt phản xạ thông minh
58 p | 10 | 5
-
Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Dự báo khách hàng sử dụng dịch vụ FiberVNN của VNPT Tây Ninh có nguy cơ rời mạng
66 p | 13 | 5
-
Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Nghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây Ninh
73 p | 19 | 5
-
Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Nghiên cứu phát triển mô-đun IoT gateway và ứng dụng máy nấu ăn thông minh
83 p | 16 | 5
-
Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Hệ thống phân loại và phát hiện phương tiện tham gia giao thông di chuyển sai làn đường trên quốc lộ thuộc tỉnh Tây Ninh bằng camera kỹ thuật số
82 p | 13 | 5
-
Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Ứng dụng phương pháp học sâu vào nhận dạng cảm xúc để đánh giá độ hài lòng khách hàng
61 p | 10 | 4
-
Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Nghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tác
79 p | 14 | 3
-
Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Thuật toán định tuyến dựa trên logic mờ tích hợp máy học nhằm cải tiến thời gian sống của mạng cảm biến không dây
75 p | 9 | 3
-
Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Nâng cao hiệu năng mạng chuyển tiếp đa chặng bảo mật dạng cụm với các thuật toán chọn đường
75 p | 12 | 3
-
Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Hỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn Thông
73 p | 12 | 3
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn