ĐẠI HỌC QUỐC GIA HÀ NỘI<br />
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ<br />
<br />
VŨ THỊ TUYẾN<br />
<br />
MỘT SỐ MÔ HÌNH HỌC MÁY TRONG PHÂN LOẠI<br />
CÂU HỎI<br />
<br />
Ngành: Công nghệ thông tin<br />
Chuyên ngành: Hệ thống thông tin<br />
Mã số: 60480104<br />
<br />
TÓM TẮT LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN<br />
<br />
Hà Nội -2016<br />
<br />
1<br />
<br />
MỤC LỤC<br />
MỤC LỤC ....................................................................................................................... 1<br />
LỜI MỞ ĐẦU ................................................................................................................. 3<br />
Chương 1: TỔNG QUAN VỀ PHÂN LOẠI CÂU HỎI ................................................. 4<br />
1.1. Tổng quan về hệ thống hỏi đáp ............................................................................ 4<br />
1.1.1.Đặt vấn đề ....................................................................................................... 4<br />
1.1.2. Hệ thống hỏi đáp (Question Answering System) .......................................... 4<br />
1.1.2.1. Giới thiệu ................................................................................................ 4<br />
1.1.2.2. Cấu trúc của một hệ thống hỏi đáp ......................................................... 4<br />
1.1.2.3. Tại sao phải phân loại câu hỏi? .............................................................. 5<br />
1.2. Bài toán phân loại câu hỏi .................................................................................... 6<br />
1.2.1. Định nghĩa phân loại câu hỏi ......................................................................... 6<br />
1.2.2. Phát biểu bài toán phân loại câu hỏi .............................................................. 6<br />
1.3. Các cáchtiếp cận bài toán phân loại câu hỏi ......................................................... 6<br />
1.3.1. Tiếp cận dựa trên luật .................................................................................... 6<br />
1.3.2. Tiếp cận dựa trên học máy ............................................................................ 7<br />
1.4. Biểu diễn câu hỏi .................................................................................................. 7<br />
1.5. Taxonomy câu hỏi ................................................................................................ 7<br />
1.5.1. Khái niệm về Taxonomy ............................................................................... 7<br />
1.5.2. Các taxonomytheo kiểu câu trả lời ................................................................ 7<br />
1.6. Các đặc trưng phân loại ........................................................................................ 8<br />
1.6.1. Các đặc trưng về từ vựng .............................................................................. 8<br />
1.6.2. Các đặc trưng về cú pháp .............................................................................. 9<br />
1.6.2.1. POS Tags và Tagged Unigrams ............................................................. 9<br />
1.6.2.2. Từ đầu (head word) ................................................................................ 9<br />
1.6.2.3. Biểu thức chính quy.............................................................................. 10<br />
1.6.3. Các đặc trưng ngữ nghĩa .............................................................................. 11<br />
Chương 2: MỘT SỐ MÔ HÌNH HỌC MÁY TRONG PHÂN LOẠI CÂU HỎI ......... 12<br />
2.1. Thuật toán Naïve Bayes...................................................................................... 12<br />
2.1.1. Định lý ......................................................................................................... 12<br />
2.1.2. Thuật toán .................................................................................................... 13<br />
2.2. Thuật toán k-láng giềng gần (k- Nearst Neighbours) ......................................... 14<br />
<br />
2<br />
2.3. Máy Vector hỗ trợ - SVM .................................................................................. 15<br />
2.4. Hiệu suất trong phân loại câu hỏi ....................................................................... 18<br />
Chương 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ ............................................................. 19<br />
3.1. Lựa chọn bộ phân loại ........................................................................................ 19<br />
3.2. Môi trường và công cụ sử dụng trong thực nghiệm ........................................... 19<br />
3.3. Tập dữ liệu thử nghiệm ...................................................................................... 19<br />
3.4. Xử lý dữ liệu ....................................................................................................... 20<br />
3.5. Huấn luyện và kiểm thử với LibSVM ................................................................ 20<br />
3.6. Kết quả thực nghiệm........................................................................................... 21<br />
3.7. Kết luận............................................................................................................... 21<br />
TỔNG KẾT ................................................................................................................... 22<br />
<br />
3<br />
LỜI MỞ ĐẦU<br />
Ngày nay, với sự phát triển mạnh mẽ của Internet toàn cầu cùng với nhu cầu<br />
tìm kiếm thông tin ngày càng cao của con người đòi hỏi hệ thống hỏi đáp ngày một<br />
thông minh hơn.Những thắc mắc của người dùng dướidạng truy vấn cần được tìm<br />
kiếm và trả về một cách ngắn gọn, súc tích và chính xác nhất những gì mà họ mong<br />
muốn.<br />
Một trong những thành phần quan trọng ảnh hưởng trực tiếp đến kết quả tìm<br />
kiếm trong hệ thống hỏi đáp là giai đoạn phân loại câu hỏi.Một phân loại tốt sẽ giúp<br />
đưa ra câu trả lời chính xác hơn.Đã có nhiều phương pháp tiếp cận được đưa ra cho bài<br />
toán phân loại này, tuy nhiên phương pháp học máy là được áp dụng nhiều hơn cả.<br />
Chính vì lý do này mà tác giả chọn và nghiên cứu đề tài “Một số mô hình học máy<br />
trong phân loại câu hỏi”. Luận văn bao gồm 3 phần như sau:<br />
Chương 1: Tổng quan về phân loại câu hỏi<br />
Chương này trình bày tổng quan về phân loại câu hỏi, giới thiệu về hệ thống hỏi<br />
đáp, bài toán phân loại câu hỏi, cách tiếp cận giải quyết bài toán, tổng quan về các tiếp<br />
cận học máy như: biểu diễn câu hỏi, phân lớp câu hỏi, các đặc trưng câu hỏi.<br />
Chương 2: Một số mô hình học máy trong phân loại câu hỏi<br />
Chương này tập trung trình bày về 3 bộ phân loại thường được sử dụng: Naïve<br />
Bayes, K-láng giềng gần, Máy vector hỗ trợ và liệt kê một số bộ phân loại khác. So<br />
sánh hiệu suất phân loại của các bộ phân loại đó dựa trên kết quả tham khảo.<br />
Chương 3: Thực nghiệm và đánh giá<br />
Áp dụng bộ phân loại SVM thực hiện thí nghiệm trên tập dữ liệu UIUC, lựa<br />
chọn đặc trưng bag-of-word.Nhận xét kết quả trả về.<br />
<br />
4<br />
Chương 1: TỔNG QUAN VỀ PHÂN LOẠI CÂU HỎI<br />
1.1. Tổng quan về hệ thống hỏi đáp<br />
1.1.1.Đặt vấn đề<br />
Với số lượng ngày càng tăng nhanh chóng của tri thức trên Web, các máy tìm<br />
kiếm cần có nhiều trí thông minh hơn. Trong một vài trường hợp người sử dụng chỉ<br />
cần một phần chính xác của thông tin thay vì một danh sách các tài liệu.Thay vì bắt<br />
người sử dụng phải đọc toàn bộ tài liệu, nó thường được ưa chuộng hơn bằng cách đưa<br />
cho người sử dụng câu trả lời chính xác và ngắn gọn.Các hệ thống hỏi đáp (Question<br />
Answering systems-QA) phải cung cấp các phần thông tin chính xác cho các câu hỏi<br />
tương ứng. Một hệ thống hỏi đáp miền mở có thể trả lời được các câu hỏi viết bằng<br />
ngôn ngữ tự nhiên giống như con người.<br />
Một trong các thành phần đóng vai trò quan trọng trong hệ thống hỏi đáp là phân<br />
loại câu hỏi.Nhiệm vụ của phân loại câu hỏi như sau: Cho 1 câu hỏi, ánh xạ câu hỏi đó<br />
tới một trong k lớp, các lớp đó cung cấp một gợi ý ngữ nghĩa về câu trả lời sau khi<br />
được tìm kiếm. Mục đích của sự phân loại này là giảm thiểu các câu trả lời không có<br />
tiềm năng, giai đoạn này được xử lý tại quá trình hạ lưu để lựa chọn câu trả lời chính<br />
xác từ một lượng các câu trả lời có tiềm năng.<br />
1.1.2. Hệ thống hỏi đáp (Question Answering System)<br />
1.1.2.1. Giới thiệu<br />
QA system: là mộthệ thống đóng vai trò phổ biến trong việc tìm kiếm thông tin<br />
chính xác và hiệu quả. Nhiệm vụ của nó là đưa ra câu trả lời đầy đủ và chính xác ứng<br />
với yêu cầu của người dùng và câu trả lời được thể hiện bằng ngôn ngữ tự nhiên.<br />
Người dùng nhanh chóng lấy được thông tin cần thiết thay vì tìm kiếm thông tin trong<br />
một khối lượng lớn các văn bản.<br />
Có 2 loại hệ thống hỏi đáp:<br />
Hệ thống hỏi đáp miền đóng (Closed-domain Question Answering): hệ<br />
thống này liên quan đến các câu hỏi trong một lĩnh vực cụ thế, chẳng hạn<br />
như lĩnh vực y học.<br />
Hệ thống hỏi đáp miền mở (Open-domain Question Answering): hệ thống<br />
này liên quan đến các câu hỏi gần như về tất cả mọi thứ.<br />
1.1.2.2. Cấu trúc của một hệ thống hỏi đáp<br />
Có nhiều hệ thống QA đã được đưa ra, nhưng hầu hết chúng đều tuân theo một<br />
khung làm việc chung. Thông thường, một hệ thống hỏi đáp xử lý 3 nhiệm vụ sau [6]:<br />
<br />