HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG<br />
<br />
KHOA CÔNG NGHỆ THÔNG TIN 1<br />
------------<br />
<br />
ĐỒ ÁN<br />
TỐT NGHIỆP ĐẠI HỌC<br />
Đề tài: “Các đặc trƣng ngôn ngữ cho bài<br />
toán phân loại câu hỏi tiếng Việt”<br />
<br />
Giảng viên hƣớng dẫn<br />
<br />
: TS. NGÔ XUÂN BÁCH<br />
<br />
Sinh viên thực hiện<br />
<br />
: NGUYỄN ĐÌNH NGHỊ<br />
<br />
Lớp<br />
<br />
: D11CNPM3<br />
<br />
Khóa:<br />
<br />
: 2011 – 2016<br />
<br />
Hệ đào tạo<br />
<br />
: ĐẠI HỌC CHÍNH QUY<br />
<br />
Hà Nội 12/2015<br />
<br />
ĐỒ ÁN TỐT NGHIỆP<br />
<br />
TÓM TẮT<br />
Trong thời đại bùng nổ Công nghệ thông tin hiện nay, phương thức sử dụng giấy<br />
tờ trong giao dịch đã dần được số hóa chuyển sang các dạng văn bản lưu trữ trên máy<br />
tính hoặc truyền tải trên mạng. Bởi nhiều tính năng ưu việt của tài liệu số như: cách<br />
lưu trữ gọn nhẹ, thời gian lưu trữ lâu dài, tiện dụng trong trao đổi, đặc biệt là qua<br />
Internet, nên ngày nay, số lượng văn bản số tăng lên một cách chóng mặt, đặc biệt là<br />
trên World Wide Web. Cùng với sự gia tăng về số lượng văn bản, nhu cầu tìm kiếm<br />
văn bản cũng tăng theo. Với số lượng văn bản đồ sộ thì yêu cầu cần có những hệ thống<br />
khai thác thông tin hiệu quả. Các công cụ tìm kiếm hiện thời chỉ trả về cho người dùng<br />
một tập các tài liệu liên quan có chứa từ khóa trong câu truy vấn của người dùng. Tuy<br />
nhiên, người dùng mong muốn một câu trả lời chính xác và cụ thể hơn, dẫn đến yêu<br />
cầu cần phải có một hệ thống hỏi đáp tự động.<br />
Trong những năm gần đây, hệ thống hỏi đáp tự động đã nhận được sự quan tâm<br />
đặc biệt của các nhà nghiên cứu, các công ty (Yahoo, Google, Mcrosoft, IBM, v.v.),<br />
các hội nghị lớn về trích chọn thông tin, xử lý ngôn ngữ tự nhiên (TREC, CLEF, ACL,<br />
v.v.) và đã đạt được những kết quả nhất định. Tuy nhiên các nghiên cứu về hệ thống<br />
hỏi đáp cho tiếng Việt vẫn còn rất hạn chế. Điều này một phần là do thiếu các công cụ<br />
đủ tốt để xử lý tiếng Việt như nhận dạng thực thể tên, phân tích cú pháp, v.v.<br />
Đồ án “Các đặc trưng ngôn ngữ cho bài toán phân loại câu hỏi tiếng Việt” tập<br />
trung nghiên cứu về vấn đề phân loại câu hỏi cho tiếng Việt, đây là pha đầu tiên trong<br />
một hệ thống hỏi đáp tiếng Việt, có ý nghĩa đặc biệt quan trọng với hoạt động của cả<br />
hệ thống. Khi một câu hỏi được phân loại sẽ giúp chúng ta thu hẹp được không gian<br />
tìm kiếm câu trả lời cho câu hỏi và từ đó giúp hệ thống hỏi đáp có thể đưa ra được các<br />
câu trả lời ngắn gọn và chính xác hơn.<br />
Trên cơ sở các nghiên cứu đã có và điều kiện thực tế của các công cụ xử lý ngôn<br />
ngữ tiếng Việt, chúng tôi tiến hành thực nghiệm việc phân loại câu hỏi tiếng Việt trên<br />
hai bộ dữ liệu: bộ dữ liệu một gồm 3000 câu hỏi tiếng Việt, bộ dữ liệu hai gồm 3000<br />
câu hỏi tiếng Việt và đi kèm với mỗi câu hỏi là 5 câu truy vấn từ Google. Chúng tôi sử<br />
dụng một số phương pháp học máy thống kê như Máy véc tơ hỗ trợ (SVM), Naïve<br />
Bayes (NB), K-láng giềng gần nhất và tiến hành thực nghiệm trên các đặc trưng ngôn<br />
ngữ tiếng Việt như đặc trưng từ vựng, đặc trưng âm tiết, n-grams, đặc trưng nhãn từ<br />
loại và đặc trưng cú pháp của câu. Các kết quả ban đầu đạt được khá khả quan. Bộ<br />
phân lớp câu hỏi đạt được kết quả tốt nhất là 85.53% khi sử dụng thuật toán SVM cho<br />
đặc trưng âm tiết 1+2 grams kết hợp với đặc trưng nhãn từ loại và đặc trưng cú pháp.<br />
Từ khóa: Hệ thống hỏi đáp, phân loại câu hỏi, Máy véc tơ hỗ trợ, K-láng giềng<br />
gần nhất, Naïve Bayes, cây cú pháp, n-grams.<br />
<br />
GVHD: TS. Ngô Xuân Bách<br />
<br />
i<br />
<br />
SVTH: Nguyễn Đình Nghị – D11CNPM3<br />
<br />
ĐỒ ÁN TỐT NGHIỆP<br />
<br />
LỜI CẢM ƠN<br />
Em xin chân thành cảm ơn TS. Ngô Xuân Bách, bộ môn Khoa học máy tính, Khoa<br />
Công nghệ thông tin 1 đã tận tình chỉ dạy và hướng dẫn cho em trong việc lựa chọn đề<br />
tài, thực hiện đề tài và viết báo cáo đồ án, giúp cho em có thể hoàn thành tốt đồ án này.<br />
Em xin cảm ơn các thầy cô giáo Học viện Công nghệ Bưu chính Viễn thông, đặc<br />
biệt các thầy cô trong khoa Công nghệ thông tin 1 đã tận tình dạy dỗ và chỉ bảo em<br />
trong suốt 4 năm học.<br />
Cuối cùng em xin cảm ơn gia đình, bạn bè, đồng nghiệp, những người đã luôn bên<br />
cạnh động viên em những lúc khó khăn, và giúp đỡ em trong suốt thời gian học tập và<br />
làm đồ án, tạo mọi điều kiện tốt nhất cho em để có thể hoàn thành tốt đồ án của mình.<br />
Em xin chân thành cảm ơn!<br />
Hà Nội, 12/2015<br />
Sinh viên<br />
Nguyễn Đình Nghị<br />
<br />
GVHD: TS. Ngô Xuân Bách<br />
<br />
ii<br />
<br />
SVTH: Nguyễn Đình Nghị – D11CNPM3<br />
<br />
ĐỒ ÁN TỐT NGHIỆP<br />
<br />
NHẬN XÉT<br />
(Của giảng viên phản biện)<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
Hà Nội, 12/2015<br />
Giảng viên phản biện<br />
<br />
GVHD: TS. Ngô Xuân Bách<br />
<br />
iii<br />
<br />
SVTH: Nguyễn Đình Nghị – D11CNPM3<br />
<br />
ĐỒ ÁN TỐT NGHIỆP<br />
<br />
NHẬN XÉT<br />
(Của giảng viên hƣớng dẫn)<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
…………………………………………………………………………………………..<br />
Hà Nội, 12/2015<br />
Giảng viên hướng dẫn<br />
<br />
GVHD: TS. Ngô Xuân Bách<br />
<br />
iv<br />
<br />
SVTH: Nguyễn Đình Nghị – D11CNPM3<br />
<br />