intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Đồ án tốt nghiệp đại học: Các đặc trưng ngôn ngữ cho bài toán phân loại câu hỏi tiếng Việt

Chia sẻ: Vivi Vivi | Ngày: | Loại File: PDF | Số trang:60

143
lượt xem
23
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Đồ án thực hiện khảo sát, nghiên cứu các phương pháp xây dựng hệ thống hỏi đáp và phân loại câu hỏi đang được quan tâm hiện nay, từ đó đưa ra phương pháp phân loại câu hỏi phù hợp nhất cho hệ thống hỏi đáp tiếng Việt; những nghiên cứu trong đồ án có thể coi là tiền đề cho các nghiên cứu tiếp theo để xây dựng một hệ thống hỏi đáp hoàn thiện cho tiếng Việt. Mời các bạn cùng tham khảo.

Chủ đề:
Lưu

Nội dung Text: Đồ án tốt nghiệp đại học: Các đặc trưng ngôn ngữ cho bài toán phân loại câu hỏi tiếng Việt

HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG<br /> <br /> KHOA CÔNG NGHỆ THÔNG TIN 1<br /> ------------<br /> <br /> ĐỒ ÁN<br /> TỐT NGHIỆP ĐẠI HỌC<br /> Đề tài: “Các đặc trƣng ngôn ngữ cho bài<br /> toán phân loại câu hỏi tiếng Việt”<br /> <br /> Giảng viên hƣớng dẫn<br /> <br /> : TS. NGÔ XUÂN BÁCH<br /> <br /> Sinh viên thực hiện<br /> <br /> : NGUYỄN ĐÌNH NGHỊ<br /> <br /> Lớp<br /> <br /> : D11CNPM3<br /> <br /> Khóa:<br /> <br /> : 2011 – 2016<br /> <br /> Hệ đào tạo<br /> <br /> : ĐẠI HỌC CHÍNH QUY<br /> <br /> Hà Nội 12/2015<br /> <br /> ĐỒ ÁN TỐT NGHIỆP<br /> <br /> TÓM TẮT<br /> Trong thời đại bùng nổ Công nghệ thông tin hiện nay, phương thức sử dụng giấy<br /> tờ trong giao dịch đã dần được số hóa chuyển sang các dạng văn bản lưu trữ trên máy<br /> tính hoặc truyền tải trên mạng. Bởi nhiều tính năng ưu việt của tài liệu số như: cách<br /> lưu trữ gọn nhẹ, thời gian lưu trữ lâu dài, tiện dụng trong trao đổi, đặc biệt là qua<br /> Internet, nên ngày nay, số lượng văn bản số tăng lên một cách chóng mặt, đặc biệt là<br /> trên World Wide Web. Cùng với sự gia tăng về số lượng văn bản, nhu cầu tìm kiếm<br /> văn bản cũng tăng theo. Với số lượng văn bản đồ sộ thì yêu cầu cần có những hệ thống<br /> khai thác thông tin hiệu quả. Các công cụ tìm kiếm hiện thời chỉ trả về cho người dùng<br /> một tập các tài liệu liên quan có chứa từ khóa trong câu truy vấn của người dùng. Tuy<br /> nhiên, người dùng mong muốn một câu trả lời chính xác và cụ thể hơn, dẫn đến yêu<br /> cầu cần phải có một hệ thống hỏi đáp tự động.<br /> Trong những năm gần đây, hệ thống hỏi đáp tự động đã nhận được sự quan tâm<br /> đặc biệt của các nhà nghiên cứu, các công ty (Yahoo, Google, Mcrosoft, IBM, v.v.),<br /> các hội nghị lớn về trích chọn thông tin, xử lý ngôn ngữ tự nhiên (TREC, CLEF, ACL,<br /> v.v.) và đã đạt được những kết quả nhất định. Tuy nhiên các nghiên cứu về hệ thống<br /> hỏi đáp cho tiếng Việt vẫn còn rất hạn chế. Điều này một phần là do thiếu các công cụ<br /> đủ tốt để xử lý tiếng Việt như nhận dạng thực thể tên, phân tích cú pháp, v.v.<br /> Đồ án “Các đặc trưng ngôn ngữ cho bài toán phân loại câu hỏi tiếng Việt” tập<br /> trung nghiên cứu về vấn đề phân loại câu hỏi cho tiếng Việt, đây là pha đầu tiên trong<br /> một hệ thống hỏi đáp tiếng Việt, có ý nghĩa đặc biệt quan trọng với hoạt động của cả<br /> hệ thống. Khi một câu hỏi được phân loại sẽ giúp chúng ta thu hẹp được không gian<br /> tìm kiếm câu trả lời cho câu hỏi và từ đó giúp hệ thống hỏi đáp có thể đưa ra được các<br /> câu trả lời ngắn gọn và chính xác hơn.<br /> Trên cơ sở các nghiên cứu đã có và điều kiện thực tế của các công cụ xử lý ngôn<br /> ngữ tiếng Việt, chúng tôi tiến hành thực nghiệm việc phân loại câu hỏi tiếng Việt trên<br /> hai bộ dữ liệu: bộ dữ liệu một gồm 3000 câu hỏi tiếng Việt, bộ dữ liệu hai gồm 3000<br /> câu hỏi tiếng Việt và đi kèm với mỗi câu hỏi là 5 câu truy vấn từ Google. Chúng tôi sử<br /> dụng một số phương pháp học máy thống kê như Máy véc tơ hỗ trợ (SVM), Naïve<br /> Bayes (NB), K-láng giềng gần nhất và tiến hành thực nghiệm trên các đặc trưng ngôn<br /> ngữ tiếng Việt như đặc trưng từ vựng, đặc trưng âm tiết, n-grams, đặc trưng nhãn từ<br /> loại và đặc trưng cú pháp của câu. Các kết quả ban đầu đạt được khá khả quan. Bộ<br /> phân lớp câu hỏi đạt được kết quả tốt nhất là 85.53% khi sử dụng thuật toán SVM cho<br /> đặc trưng âm tiết 1+2 grams kết hợp với đặc trưng nhãn từ loại và đặc trưng cú pháp.<br /> Từ khóa: Hệ thống hỏi đáp, phân loại câu hỏi, Máy véc tơ hỗ trợ, K-láng giềng<br /> gần nhất, Naïve Bayes, cây cú pháp, n-grams.<br /> <br /> GVHD: TS. Ngô Xuân Bách<br /> <br /> i<br /> <br /> SVTH: Nguyễn Đình Nghị – D11CNPM3<br /> <br /> ĐỒ ÁN TỐT NGHIỆP<br /> <br /> LỜI CẢM ƠN<br /> Em xin chân thành cảm ơn TS. Ngô Xuân Bách, bộ môn Khoa học máy tính, Khoa<br /> Công nghệ thông tin 1 đã tận tình chỉ dạy và hướng dẫn cho em trong việc lựa chọn đề<br /> tài, thực hiện đề tài và viết báo cáo đồ án, giúp cho em có thể hoàn thành tốt đồ án này.<br /> Em xin cảm ơn các thầy cô giáo Học viện Công nghệ Bưu chính Viễn thông, đặc<br /> biệt các thầy cô trong khoa Công nghệ thông tin 1 đã tận tình dạy dỗ và chỉ bảo em<br /> trong suốt 4 năm học.<br /> Cuối cùng em xin cảm ơn gia đình, bạn bè, đồng nghiệp, những người đã luôn bên<br /> cạnh động viên em những lúc khó khăn, và giúp đỡ em trong suốt thời gian học tập và<br /> làm đồ án, tạo mọi điều kiện tốt nhất cho em để có thể hoàn thành tốt đồ án của mình.<br /> Em xin chân thành cảm ơn!<br /> Hà Nội, 12/2015<br /> Sinh viên<br /> Nguyễn Đình Nghị<br /> <br /> GVHD: TS. Ngô Xuân Bách<br /> <br /> ii<br /> <br /> SVTH: Nguyễn Đình Nghị – D11CNPM3<br /> <br /> ĐỒ ÁN TỐT NGHIỆP<br /> <br /> NHẬN XÉT<br /> (Của giảng viên phản biện)<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> Hà Nội, 12/2015<br /> Giảng viên phản biện<br /> <br /> GVHD: TS. Ngô Xuân Bách<br /> <br /> iii<br /> <br /> SVTH: Nguyễn Đình Nghị – D11CNPM3<br /> <br /> ĐỒ ÁN TỐT NGHIỆP<br /> <br /> NHẬN XÉT<br /> (Của giảng viên hƣớng dẫn)<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> …………………………………………………………………………………………..<br /> Hà Nội, 12/2015<br /> Giảng viên hướng dẫn<br /> <br /> GVHD: TS. Ngô Xuân Bách<br /> <br /> iv<br /> <br /> SVTH: Nguyễn Đình Nghị – D11CNPM3<br /> <br />
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
5=>2