intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Tóm tắt Luận văn Thạc sĩ: Mô hình ngôn ngữ sử dụng mapreduce

Chia sẻ: Nguyễn Văn H | Ngày: | Loại File: PDF | Số trang:36

52
lượt xem
5
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Đề tài "Mô hình ngôn ngữ sử dụng mapreduce" nhằm mục đích nghiên cứu sử dụng Hadoop và MapReduce vào việc xây dựng mô hình ngôn ngữ nhằm cải tiến tốc độ cho việc xây dựng mô hình ngôn ngữ và ước lượng mô hình để có thể thực hiện với lượng dữ liệu rất lớn để đưa ra mô hình ngôn ngữ chính xác hơn. Mời các bạn cùng tìm đọc toàn văn luận văn này.

Chủ đề:
Lưu

Nội dung Text: Tóm tắt Luận văn Thạc sĩ: Mô hình ngôn ngữ sử dụng mapreduce

ĐẠI HỌC QUỐC GIA HÀ NỘI<br /> TRƢỜNG ĐẠI HỌC CÔNG NGHỆ<br /> <br /> VŨ THỊ THANH<br /> <br /> MÔ HÌNH NGÔN NGỮ SỬ DỤNG MAPREDUCE<br /> <br /> Ngành: Công nghệ thông tin<br /> Chuyên ngành: Kỹ thuật phần mềm<br /> Mã Số: 60480103<br /> <br /> LUẬN VĂN THẠC SĨ<br /> NGƢỜI HƢỚNG DẪN KHOA HỌC CHÍNH: TS. NGUYỄN VĂN VINH<br /> NGƢỜI HƢỚNG DẪN KHOA HỌC PHỤ: TS. NGUYỄN PHÚ BÌNH<br /> <br /> Hà nội – 2016<br /> <br /> i<br /> <br /> MỤC LỤC<br /> MỤC LỤC ............................................................................................................................. i<br /> LỜI CẢM ƠN ..................................................................................................................... iii<br /> LỜI CAM ĐOAN ................................................................................................................ iv<br /> DANH MỤC THUẬT NGỮ VIẾT TẮT ............................................................................. v<br /> Giới thiệu .............................................................................................................................. 6<br /> Chƣơng 1: Mô hình ngôn ngữ .............................................................................................. 8<br /> 1.1 Giới thiệu: .................................................................................................................. 8<br /> 1.2 Mô hình ngôn ngữ N-gram ........................................................................................ 9<br /> 1.3 Khó khăn khi xây dựng mô hình ngôn ngữ N-gram ................................................ 11<br /> 1.3.1 Phân bố không đều:.......................................................................................... 11<br /> 1.3.2 Kích thƣớc bộ nhớ của mô hình ngôn ngữ ....................................................... 11<br /> 1.4 Các phƣơng pháp làm mịn ....................................................................................... 12<br /> 1.4.1 Phƣơng pháp Add-one ...................................................................................... 12<br /> 1.4.2 Phƣơng pháp Good – Turing ............................................................................ 13<br /> 1.4.3 Phƣơng pháp truy hồi back-off ......................................................................... 14<br /> 1.4.4 Phƣơng pháp nội suy ........................................................................................ 16<br /> 1.4.5 Phƣơng pháp Kneser – Ney .............................................................................. 16<br /> 1.4.6 Phƣơng pháp Kneser – Ney cải tiến ................................................................. 18<br /> Trong đó: Ni là số lƣợng cụm N-gram có số lần xuất hiện ....................................... 18<br /> 1.5 Đánh giá mô hình ngôn ngữ ..................................................................................... 18<br /> 1.5.1 Entropy – Độ đo thông tin: ............................................................................... 19<br /> 1.5.2 Perplexity – Độ hỗn loạn thông tin: .................................................................. 20<br /> 1.5.3 Error rate – Tỉ lệ lỗi: ......................................................................................... 20<br /> Chƣơng 2: Tổng quan về Hadoop MapReduce .................................................................. 22<br /> 2.1 Hadoop ..................................................................................................................... 22<br /> 2.2 Các thành phần của Hadoop ..................................................................................... 22<br /> 2.2.1 Kiến trúc hệ thống tệp phân tán ........................................................................ 22<br /> 2.3 Mapreduce ................................................................................................................ 23<br /> <br /> ii<br /> 2.3.1 Kiến trúc của Mapreduce .................................................................................. 23<br /> 2.3.2 Cơ chế hoạt động .............................................................................................. 24<br /> 2.4 Ƣu điểm của Hadoop ............................................................................................... 25<br /> Chƣơng 3:Ƣớc lƣợng mô hình ngôn ngữ với Mapreduce .................................................. 26<br /> 3.1 Đếm các từ ............................................................................................................... 26<br /> 3.2 Đếm số lần xuất hiện (Generate count of counts) .................................................... 27<br /> 3.3 Sinh số làm mịn Good-Turing.................................................................................. 27<br /> 3.4 Ƣớc lƣợng xác suất n-gram ...................................................................................... 28<br /> 3.5 Sinh bảng Hbase ....................................................................................................... 28<br /> 3.5.1 Cấu trúc dựa trên n-gram .................................................................................. 28<br /> 3.5.2 Cấu trúc dựa trên từ hiện tại ............................................................................. 28<br /> 3.5.3 Cấu trúc dựa trên đoạn văn ............................................................................... 29<br /> 3.5.4 Cấu trúc dựa trên nửa ngram ............................................................................ 29<br /> 3.5.5 Cấu trúc dựa trên số nguyên ............................................................................. 30<br /> 3.6 Truy vấn trực tiếp ..................................................................................................... 30<br /> Chƣơng 4: Các phƣơng pháp đánh giá và thực nghiệm ..................................................... 31<br /> 4.1 Các phƣơng pháp đánh giá ....................................................................................... 31<br /> 4.1.1 Thời gian và bộ nhớ .......................................................................................... 31<br /> 4.1.2 Sự so sánh độ hỗn loạn thông tin mô hình ngôn ngữ ....................................... 31<br /> 4.2 Thực nghiệm ............................................................................................................ 32<br /> 4.2.1 Môi trƣờng chạy thực nghiệm .......................................................................... 32<br /> 4.2.2 Dữ liệu .............................................................................................................. 32<br /> 4.2.3 Đánh giá thời gian và bộ nhớ cho các ngram ................................................... 32<br /> 4.2.4 So sánh thời gian chạy với SRILM................................................................... 33<br /> KẾT LUẬN ........................................................................................................................ 34<br /> TÀI LIỆU THAM KHẢO .................................................................................................. 35<br /> <br /> iii<br /> <br /> LỜI CẢM ƠN<br /> Đầu tiên, cho phép tôi gửi lời cảm ơn sâu sắc tới TS Nguyễn Văn Vinh và TS<br /> Nguyễn Phú Bình, ngƣời đã trực tiếp hƣớng dẫn, chỉ bảo và tạo điều kiện cho tôi trong<br /> quá trình hoàn thành luận văn này.<br /> Đồng thời tôi cũng xin gửi lời cảm ơn chân thành tới các thầy cô giáo trƣờng Đại<br /> học Công Nghệ, Đai học Quốc Gia Hà Nội, những ngƣời đã trực tiếp giảng dạy, hƣớng<br /> dẫn và tạo điều kiện cho tôi trong quá trình học tập và làm luận văn.<br /> Cuối cùng, tôi xin gửi lời cảm ơn tới tất cả các bạn đồng học và gia đình đã ủng<br /> hộ, giúp đỡ tôi hoàn thành luận văn.<br /> <br /> iv<br /> <br /> LỜI CAM ĐOAN<br /> Tôi xin cam đoan kết quả trong luận văn là sản phẩm của riêng cá nhân tôi.<br /> Trong toàn bộ nội dung của luận văn, những điều đƣợc trình bày hoặc là của cá nhân<br /> hoặc là đƣợc tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có<br /> xuất xứ rõ ràng và đƣợc trích dẫn hợp pháp.<br /> Tôi xin hoàn toàn chịu trách nhiệm theo quy định cho lời cam đoan của mình.<br /> Hà Nội, ngày 25 tháng 10 năm 2016<br /> Ngƣời cam đoan<br /> Vũ Thị Thanh<br /> <br />
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2