Tóm tắt Luận văn Thạc sĩ Công nghệ thông tin: Một số mô hình học máy trong phân loại câu hỏi

Chia sẻ: Nguyễn Văn H | Ngày: | Loại File: PDF | Số trang:23

Thêm vào BST

Báo xấu

46
lượt xem 5
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Lý do này mà tác giả chọn và nghiên cứu đề tài “Một số mô hình học máy trong phân loại câu hỏi” đó là một phân loại tốt sẽ giúp đưa ra câu trả lời chính xác hơn. Đã có nhiều phương pháp tiếp cận được đưa ra cho bài toán phân loại này, tuy nhiên phương pháp học máy là được áp dụng nhiều hơn cả.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Tóm tắt Luận văn Thạc sĩ Công nghệ thông tin: Một số mô hình học máy trong phân loại câu hỏi

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ TUYẾN MỘT SỐ MÔ HÌNH HỌC MÁY TRONG PHÂN LOẠI CÂU HỎI Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 TÓM TẮT LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội -2016 1 MỤC LỤC MỤC LỤC ....................................................................................................................... 1 LỜI MỞ ĐẦU ................................................................................................................. 3 Chương 1: TỔNG QUAN VỀ PHÂN LOẠI CÂU HỎI ................................................. 4 1.1. Tổng quan về hệ thống hỏi đáp ............................................................................ 4 1.1.1.Đặt vấn đề ....................................................................................................... 4 1.1.2. Hệ thống hỏi đáp (Question Answering System) .......................................... 4 1.1.2.1. Giới thiệu ................................................................................................ 4 1.1.2.2. Cấu trúc của một hệ thống hỏi đáp ......................................................... 4 1.1.2.3. Tại sao phải phân loại câu hỏi? .............................................................. 5 1.2. Bài toán phân loại câu hỏi .................................................................................... 6 1.2.1. Định nghĩa phân loại câu hỏi ......................................................................... 6 1.2.2. Phát biểu bài toán phân loại câu hỏi .............................................................. 6 1.3. Các cáchtiếp cận bài toán phân loại câu hỏi ......................................................... 6 1.3.1. Tiếp cận dựa trên luật .................................................................................... 6 1.3.2. Tiếp cận dựa trên học máy ............................................................................ 7 1.4. Biểu diễn câu hỏi .................................................................................................. 7 1.5. Taxonomy câu hỏi ................................................................................................ 7 1.5.1. Khái niệm về Taxonomy ............................................................................... 7 1.5.2. Các taxonomytheo kiểu câu trả lời ................................................................ 7 1.6. Các đặc trưng phân loại ........................................................................................ 8 1.6.1. Các đặc trưng về từ vựng .............................................................................. 8 1.6.2. Các đặc trưng về cú pháp .............................................................................. 9 1.6.2.1. POS Tags và Tagged Unigrams ............................................................. 9 1.6.2.2. Từ đầu (head word) ................................................................................ 9 1.6.2.3. Biểu thức chính quy.............................................................................. 10 1.6.3. Các đặc trưng ngữ nghĩa .............................................................................. 11 Chương 2: MỘT SỐ MÔ HÌNH HỌC MÁY TRONG PHÂN LOẠI CÂU HỎI ......... 12 2.1. Thuật toán Naïve Bayes...................................................................................... 12 2.1.1. Định lý ......................................................................................................... 12 2.1.2. Thuật toán .................................................................................................... 13 2.2. Thuật toán k-láng giềng gần (k- Nearst Neighbours) ......................................... 14 2 2.3. Máy Vector hỗ trợ - SVM .................................................................................. 15 2.4. Hiệu suất trong phân loại câu hỏi ....................................................................... 18 Chương 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ ............................................................. 19 3.1. Lựa chọn bộ phân loại ........................................................................................ 19 3.2. Môi trường và công cụ sử dụng trong thực nghiệm ........................................... 19 3.3. Tập dữ liệu thử nghiệm ...................................................................................... 19 3.4. Xử lý dữ liệu ....................................................................................................... 20 3.5. Huấn luyện và kiểm thử với LibSVM ................................................................ 20 3.6. Kết quả thực nghiệm........................................................................................... 21 3.7. Kết luận............................................................................................................... 21 TỔNG KẾT ................................................................................................................... 22 3 LỜI MỞ ĐẦU Ngày nay, với sự phát triển mạnh mẽ của Internet toàn cầu cùng với nhu cầu tìm kiếm thông tin ngày càng cao của con người đòi hỏi hệ thống hỏi đáp ngày một thông minh hơn.Những thắc mắc của người dùng dướidạng truy vấn cần được tìm kiếm và trả về một cách ngắn gọn, súc tích và chính xác nhất những gì mà họ mong muốn. Một trong những thành phần quan trọng ảnh hưởng trực tiếp đến kết quả tìm kiếm trong hệ thống hỏi đáp là giai đoạn phân loại câu hỏi.Một phân loại tốt sẽ giúp đưa ra câu trả lời chính xác hơn.Đã có nhiều phương pháp tiếp cận được đưa ra cho bài toán phân loại này, tuy nhiên phương pháp học máy là được áp dụng nhiều hơn cả. Chính vì lý do này mà tác giả chọn và nghiên cứu đề tài “Một số mô hình học máy trong phân loại câu hỏi”. Luận văn bao gồm 3 phần như sau: Chương 1: Tổng quan về phân loại câu hỏi Chương này trình bày tổng quan về phân loại câu hỏi, giới thiệu về hệ thống hỏi đáp, bài toán phân loại câu hỏi, cách tiếp cận giải quyết bài toán, tổng quan về các tiếp cận học máy như: biểu diễn câu hỏi, phân lớp câu hỏi, các đặc trưng câu hỏi. Chương 2: Một số mô hình học máy trong phân loại câu hỏi Chương này tập trung trình bày về 3 bộ phân loại thường được sử dụng: Naïve Bayes, K-láng giềng gần, Máy vector hỗ trợ và liệt kê một số bộ phân loại khác. So sánh hiệu suất phân loại của các bộ phân loại đó dựa trên kết quả tham khảo. Chương 3: Thực nghiệm và đánh giá Áp dụng bộ phân loại SVM thực hiện thí nghiệm trên tập dữ liệu UIUC, lựa chọn đặc trưng bag-of-word.Nhận xét kết quả trả về. 4 Chương 1: TỔNG QUAN VỀ PHÂN LOẠI CÂU HỎI 1.1. Tổng quan về hệ thống hỏi đáp 1.1.1.Đặt vấn đề Với số lượng ngày càng tăng nhanh chóng của tri thức trên Web, các máy tìm kiếm cần có nhiều trí thông minh hơn. Trong một vài trường hợp người sử dụng chỉ cần một phần chính xác của thông tin thay vì một danh sách các tài liệu.Thay vì bắt người sử dụng phải đọc toàn bộ tài liệu, nó thường được ưa chuộng hơn bằng cách đưa cho người sử dụng câu trả lời chính xác và ngắn gọn.Các hệ thống hỏi đáp (Question Answering systems-QA) phải cung cấp các phần thông tin chính xác cho các câu hỏi tương ứng. Một hệ thống hỏi đáp miền mở có thể trả lời được các câu hỏi viết bằng ngôn ngữ tự nhiên giống như con người. Một trong các thành phần đóng vai trò quan trọng trong hệ thống hỏi đáp là phân loại câu hỏi.Nhiệm vụ của phân loại câu hỏi như sau: Cho 1 câu hỏi, ánh xạ câu hỏi đó tới một trong k lớp, các lớp đó cung cấp một gợi ý ngữ nghĩa về câu trả lời sau khi được tìm kiếm. Mục đích của sự phân loại này là giảm thiểu các câu trả lời không có tiềm năng, giai đoạn này được xử lý tại quá trình hạ lưu để lựa chọn câu trả lời chính xác từ một lượng các câu trả lời có tiềm năng. 1.1.2. Hệ thống hỏi đáp (Question Answering System) 1.1.2.1. Giới thiệu QA system: là mộthệ thống đóng vai trò phổ biến trong việc tìm kiếm thông tin chính xác và hiệu quả. Nhiệm vụ của nó là đưa ra câu trả lời đầy đủ và chính xác ứng với yêu cầu của người dùng và câu trả lời được thể hiện bằng ngôn ngữ tự nhiên. Người dùng nhanh chóng lấy được thông tin cần thiết thay vì tìm kiếm thông tin trong một khối lượng lớn các văn bản. Có 2 loại hệ thống hỏi đáp:  Hệ thống hỏi đáp miền đóng (Closed-domain Question Answering): hệ thống này liên quan đến các câu hỏi trong một lĩnh vực cụ thế, chẳng hạn như lĩnh vực y học.  Hệ thống hỏi đáp miền mở (Open-domain Question Answering): hệ thống này liên quan đến các câu hỏi gần như về tất cả mọi thứ. 1.1.2.2. Cấu trúc của một hệ thống hỏi đáp Có nhiều hệ thống QA đã được đưa ra, nhưng hầu hết chúng đều tuân theo một khung làm việc chung. Thông thường, một hệ thống hỏi đáp xử lý 3 nhiệm vụ sau [6]: