intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu tóm tắt văn bản tự động và ứng dụng

Chia sẻ: Nguyễn Văn H | Ngày: | Loại File: PDF | Số trang:63

97
lượt xem
13
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Trong luận văn này, tác giả tập trung nghiên cứu tóm tắt văn bản tự động theo hướng tóm lược, các mô hình kiến trúc mạng học sâu và các kỹ thuật xử lý những thách thức trong tóm tắt văn bản. Bố cục của luận văn được tổ chức thành như sau: Chương 1. Khái quát bài toán tóm tắt văn bản; chương 2. Một số nghiên cứu về tóm tắt văn bản; chương 3. Mạng nơ ron nhân tạo; chương 4. Xây dựng hệ thống tóm tắt văn bản theo hướng tóm lược, chương 5. Thử nghiệm và đánh giá.

Chủ đề:
Lưu

Nội dung Text: Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu tóm tắt văn bản tự động và ứng dụng

ĐẠI HỌC QUỐC GIA HÀ NỘI<br /> TRƢỜNG ĐẠI HỌC CÔNG NGHỆ<br /> <br /> NGUYỄN VIẾT HẠNH<br /> <br /> NGHIÊN CỨU TÓM TẮT VĂN BẢN TỰ ĐỘNG VÀ<br /> ỨNG DỤNG<br /> <br /> LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN<br /> <br /> HÀ NỘI – 2018<br /> <br /> ĐẠI HỌC QUỐC GIA HÀ NỘI<br /> TRƢỜNG ĐẠI HỌC CÔNG NGHỆ<br /> <br /> NGUYỄN VIẾT HẠNH<br /> <br /> NGHIÊN CỨU TÓM TẮT VĂN BẢN TỰ ĐỘNG VÀ<br /> ỨNG DỤNG<br /> <br /> Ngành: Công nghệ thông tin<br /> Chuyên ngành: Kỹ thuật phần mềm<br /> Mã số: 60480103<br /> <br /> LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN<br /> <br /> NGƢỜI HƢỚNG DẪN KHOA HỌC: TS. NGUYỄN VĂN VINH<br /> <br /> HÀ NỘI - 2018<br /> <br /> 3<br /> <br /> LỜI CAM ĐOAN<br /> Tôi là Nguyễn Viết Hạnh, học viên lớp Kỹ Thuật Phần Mềm K22 xin cam<br /> đoan báo cáo luận văn này đƣợc viết bởi tôi dƣới sự hƣớng dẫn của thầy giáo, tiến<br /> sỹ Nguyễn Văn Vinh. Tất cả các kết quả đạt đƣợc trong luận văn này là quá trình<br /> tìm hiểu, nghiên cứu của riêng tôi. Trong toàn bộ nội dung của luận văn, những<br /> điều đƣợc trình bày là kết quả của cá nhân tôi hoặc là đƣợc tổng hợp từ nhiều<br /> nguồn tài liệu khác. Các tài liệu tham khảo đều có xuất xứ rõ ràng và đƣợc trích<br /> dẫn hợp pháp.<br /> Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy<br /> định cho lời cam đoan của mình.<br /> Hà Nội, ngày ….. tháng …… năm 2018<br /> Ngƣời cam đoan<br /> <br /> Nguyễn Viết Hạnh<br /> <br /> 4<br /> <br /> LỜI CẢM ƠN<br /> Lời đầu tiên, tôi xin bày tỏ sự cảm ơn chân thành đối với Thầy giáo TS. Nguyễn<br /> Văn Vinh – giáo viên hƣớng dẫn trực tiếp của tôi. Thầy Vinh đã cho tôi những gợi<br /> ý và chỉ dẫn quý báu trong quá trình nghiên cứu và hoàn thiện luận văn thạc sĩ.<br /> Tôi cũng xin gửi lời cảm ơn tới các thầy cô trong khoa Công nghệ thông tin, trƣờng<br /> Đại học Công Nghệ, Đại học Quốc gia Hà Nội đã hƣớng dẫn, chỉ bảo và tạo điều<br /> kiện cho chúng tôi học tập và nghiên cứu tại trƣờng trong suốt thời gian qua.<br /> Tôi cũng xin đƣợc cảm ơn gia đình, những ngƣời thân, các đồng nghiệp và bạn bè<br /> tôi đã quan tâm, động viên, giới thiệu các tài liệu hữu ích trong thời gian học tập và<br /> nghiên cứu luận văn tốt nghiệp.<br /> Mặc dù đã cố gắng hoàn thành luận văn nhƣng chắc chắn sẽ không tránh khỏi<br /> những sai sót, tôi kính mong nhận đƣợc sự thông cảm và chỉ bảo của các thầy cô và<br /> các bạn.<br /> Tôi xin chân thành cảm ơn!<br /> <br /> 5<br /> <br /> MỤC LỤC<br /> LỜI CAM ĐOAN ................................................................................................................. 3<br /> LỜI CẢM ƠN ....................................................................................................................... 4<br /> MỤC LỤC ............................................................................................................................ 5<br /> BẢNG CÁC TỪ VIẾT TẮT ................................................................................................ 7<br /> DANH MỤC HÌNH VẼ ....................................................................................................... 8<br /> MỞ ĐẦU ............................................................................................................................ 10<br /> CHƢƠNG 1: KHÁI QUÁT BÀI TOÁN TÓM TẮT VĂN BẢN...................................... 12<br /> 1.1. Bài toán tóm tắt văn bản tự động............................................................................. 12<br /> 1.2. Các hƣớng tiếp cận tóm tắt văn bản. ....................................................................... 12<br /> CHƢƠNG 2: MỘT SỐ NGHIÊN CỨU VỀ TÓM TẮT VĂN BẢN ................................ 14<br /> 2.1. Tóm tắt văn bản theo hƣớng trích chọn. .................................................................. 14<br /> 2.1.1. Phƣơng pháp chủ đề đại diện dựa trên tần xuất ................................................... 15<br /> 2.1.1.1. Word probability ........................................................................................... 15<br /> 2.1.1.2. Phƣơng pháp TF-IDF .................................................................................... 16<br /> 2.1.2. Phƣơng pháp đặc trƣng đại diện ........................................................................... 16<br /> 2.1.2.1. Phƣơng pháp đồ thị cho tóm tắt văn bản ........................................................... 16<br /> 2.1.2.2. Kỹ thuật học máy cho tóm tắt văn bản .............................................................. 17<br /> 2.2. Tóm tắt văn bản theo hƣớng tóm lƣợc .................................................................... 17<br /> CHƢƠNG 3: MẠNG NƠ RON NHÂN TẠO ................................................................... 19<br /> 3.1. Mạng nơ ron nhân tạo ANN .................................................................................... 19<br /> 3.1.1. Cấu trúc mạng nơ ron nhân tạo ............................................................................ 19<br /> 3.1.2. Hoạt động của mạng ANN ................................................................................... 20<br /> 3.2. Mạng nơ ron hồi quy RNN ...................................................................................... 21<br /> 3.3. Mạng nơ ron có nhớ LSTM ..................................................................................... 23<br /> CHƢƠNG 4: XÂY DỰNG HỆ THỐNG TÓM TẮT VĂN BẢN THEO HƢỚNG TÓM<br /> LƢỢC ................................................................................................................................. 29<br /> 4.1. Quy trình tóm tắt theo hƣớng tóm lƣợc sử dụng mạng LSTM ............................... 29<br /> 4.2. Xây dựng bộ dữ liệu cho tóm tắt văn bản tiếng Việt............................................... 30<br /> 4.3. Word Embedding ..................................................................................................... 32<br /> 4.3.1. Embedding dựa trên tần xuất xuất hiện của từ. .................................................... 33<br /> <br />
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2