intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn Thạc sĩ: Mô hình ngôn ngữ sử dụng mapreduce

Chia sẻ: Nguyễn Văn H | Ngày: | Loại File: PDF | Số trang:54

54
lượt xem
6
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Nội dung luận văn này được trình bày trong bốn chương. Phần giới thiệu về đề tài; chương 1 trình bày các khái niệm cơ bản phục vụ cho đề tài; chương 2 trình bày các kiến thức cơ bản về Hadoop và MapReduce, giới thiệu về kiến trúc của Hadoop, MapReduce cũng như cơ chế làm việc của chúng, Chương 3 sẽ trình bày về việc ứng dụng Hadoop và MapReduce vào mô hình ngôn ngữ; chương 4 giới thiệu về công cụ thực nghiệm và kết quả thực nghiệm. Phần kết luận đưa ra kết luận, định hướng phát triển cho đề tài.

Chủ đề:
Lưu

Nội dung Text: Luận văn Thạc sĩ: Mô hình ngôn ngữ sử dụng mapreduce

ĐẠI HỌC QUỐC GIA HÀ NỘI<br /> TRƢỜNG ĐẠI HỌC CÔNG NGHỆ<br /> <br /> VŨ THỊ THANH<br /> <br /> MÔ HÌNH NGÔN NGỮ SỬ DỤNG MAPREDUCE<br /> <br /> Ngành: Công nghệ thông tin<br /> Chuyên ngành: Kỹ thuật phần mềm<br /> Mã Số: 60480103<br /> <br /> LUẬN VĂN THẠC SĨ<br /> NGƢỜI HƢỚNG DẪN KHOA HỌC CHÍNH: TS. NGUYỄN VĂN VINH<br /> NGƢỜI HƢỚNG DẪN KHOA HỌC PHỤ: TS. NGUYỄN PHÚ BÌNH<br /> <br /> Hà Nội – 2016<br /> <br /> i<br /> <br /> MỤC LỤC<br /> MỤC LỤC ............................................................................................................................ i<br /> LỜI CẢM ƠN ................................................................................................................... iii<br /> LỜI CAM ĐOAN ................................................................................................................ iv<br /> DANH MỤC THUẬT NGỮ VIẾT TẮT .......................................................................... v<br /> DANH MỤC HÌNH VẼ..................................................................................................... vi<br /> DANH MỤC BẢNG .........................................................................................................vii<br /> GIỚI THIỆU ....................................................................................................................... 8<br /> Chương 1:Mô hình ngôn ngữ .......................................................................................... 10<br /> 1.1 Giới thiệu: ..................................................................................................................... 10<br /> 1.2 Mô hình ngôn ngữ N-gram ........................................................................................... 11<br /> 1.3 Khó khăn khi xây dựng mô hình ngôn ngữ N-gram .................................................... 13<br /> 1.3.1 Phân bố không đều: .................................................................................................. 13<br /> 1.3.2 Kích thước bộ nhớ của mô hình ngôn ngữ ................................................................ 13<br /> 1.4 Các phương pháp làm mịn............................................................................................ 14<br /> 1.4.1 Phương pháp Add-one ............................................................................................... 14<br /> 1.4.2 Phương pháp Good – Turing ..................................................................................... 15<br /> 1.4.3 Phương pháp truy hồi back-off .................................................................................. 16<br /> 1.4.4 Phương pháp nội suy ................................................................................................. 18<br /> 1.4.5 Phương pháp Kneser – Ney ....................................................................................... 19<br /> 1.4.6 Phương pháp Kneser – Ney cải tiến .......................................................................... 20<br /> 1.5 Đánh giá mô hình ngôn ngữ ......................................................................................... 21<br /> 1.5.1 Entropy – Độ đo thông tin: ........................................................................................ 21<br /> 1.5.2 Perplexity – Độ hỗn loạn thông tin: .......................................................................... 22<br /> 1.5.3 Error rate – Tỉ lệ lỗi: .................................................................................................. 23<br /> Chương 2:Tổng quan về Hadoop MapReduce .............................................................. 24<br /> 2.1 Hadoop.......................................................................................................................... 24<br /> 2.2 Các thành phần của Hadoop ......................................................................................... 24<br /> 2.2.1 Kiến trúc hệ thống tệp phân tán ................................................................................. 24<br /> <br /> ii<br /> 2.3 Mapreduce .................................................................................................................... 26<br /> 2.3.1 Kiến trúc của Mapreduce........................................................................................... 27<br /> 2.3.2 Cơ chế hoạt động ....................................................................................................... 28<br /> 2.4 Ưu điểm của Hadoop .................................................................................................... 31<br /> Chương 3:Ƣớc lƣợng mô hình ngôn ngữ với Mapreduce ............................................. 32<br /> 3.1 Đếm các từ .................................................................................................................... 33<br /> 3.2 Đếm số lần xuất hiện (Generate count of counts) ........................................................ 36<br /> 3.3 Sinh số làm mịn Good-Turing ...................................................................................... 37<br /> 3.4 Ước lượng xác suất n-gram .......................................................................................... 38<br /> 3.5 Sinh bảng Hbase ........................................................................................................... 40<br /> 3.5.1 Cấu trúc dựa trên n-gram ........................................................................................... 40<br /> 3.5.2 Cấu trúc dựa trên từ hiện tại ...................................................................................... 40<br /> 3.5.3 Cấu trúc dựa trên đoạn văn ........................................................................................ 41<br /> 3.5.4 Cấu trúc dựa trên nửa ngram ..................................................................................... 42<br /> 3.5.5 Cấu trúc dựa trên số nguyên ...................................................................................... 43<br /> 3.6 Truy vấn trực tiếp ......................................................................................................... 44<br /> Chương 4: Các phƣơng pháp đánh giá và thực nghiệm....................................................... 46<br /> 4.1 Các phương pháp đánh giá ........................................................................................... 46<br /> 4.1.1 Thời gian và bộ nhớ ................................................................................................... 46<br /> 4.1.2 Sự so sánh độ hỗn loạn thông tin mô hình ngôn ngữ ................................................ 46<br /> 4.2 Thực nghiệm ................................................................................................................. 47<br /> 4.2.1 Môi trường chạy thực nghiệm ................................................................................... 47<br /> 4.2.2 Dữ liệu ....................................................................................................................... 47<br /> 4.2.3 Đánh giá thời gian và bộ nhớ cho các ngram ............................................................ 48<br /> 4.2.4 So sánh thời gian chạy với SRILM ........................................................................... 50<br /> KẾT LUẬN ....................................................................................................................... 52<br /> TÀI LIỆU THAM KHẢO................................................................................................ 53<br /> <br /> iii<br /> <br /> LỜI CẢM ƠN<br /> Đầu tiên, cho phép tôi gửi lời cảm ơn sâu sắc tới TS Nguyễn Văn Vinh và TS<br /> Nguyễn Phú Bình, người đã trực tiếp hướng dẫn, chỉ bảo và tạo điều kiện cho tôi trong<br /> quá trình hoàn thành luận văn này.<br /> Đồng thời tôi cũng xin gửi lời cảm ơn chân thành tới các thầy cô giáo trường Đại<br /> học Công Nghệ, Đai học Quốc Gia Hà Nội, những người đã trực tiếp giảng dạy, hướng<br /> dẫn và tạo điều kiện cho tôi trong quá trình học tập và làm luận văn.<br /> Cuối cùng, tôi xin gửi lời cảm ơn tới tất cả các bạn đồng học và gia đình đã ủng<br /> hộ, giúp đỡ tôi hoàn thành luận văn.<br /> <br /> iv<br /> <br /> LỜI CAM ĐOAN<br /> Tôi xin cam đoan kết quả trong luận văn là sản phẩm của riêng cá nhân tôi.<br /> Trong toàn bộ nội dung của luận văn, những điều được trình bày hoặc là của cá nhân<br /> hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có<br /> xuất xứ rõ ràng và được trích dẫn hợp pháp.<br /> Tôi xin hoàn toàn chịu trách nhiệm theo quy định cho lời cam đoan của mình.<br /> <br /> Hà Nội, ngày 25 tháng 10 năm 2016<br /> Ngƣời cam đoan<br /> <br /> Vũ Thị Thanh<br /> <br />
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2