intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn Thạc sĩ Khoa học: Phát triển công cụ gióng hàng văn bản song ngữ

Chia sẻ: My Tien | Ngày: | Loại File: PDF | Số trang:41

51
lượt xem
4
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục tiêu nghiên cứu của luận văn nhằm xây dựng một kho ngữ liệu song ngữ Anh - Việt gióng hàng mức câu. Cải tiến công cụ gióng hàng văn bản song ngữ Anh - Việt XAlign cải thiện độ chính xác và độ phủ.

Chủ đề:
Lưu

Nội dung Text: Luận văn Thạc sĩ Khoa học: Phát triển công cụ gióng hàng văn bản song ngữ

ĐẠI HỌC QUỐC GIA HÀ NỘI<br /> TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN<br /> -------------------<br /> <br /> NGUYỄN MINH HẢI<br /> <br /> PHÁT TRIỂN CÔNG CỤ GIÓNG HÀNG VĂN<br /> BẢN SONG NGỮ<br /> <br /> LUẬN VĂN THẠC SĨ KHOA HỌC<br /> <br /> Hà Nội – 2016<br /> <br /> ĐẠI HỌC QUỐC GIA HÀ NỘI<br /> TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN<br /> -------------------<br /> <br /> NGUYỄN MINH HẢI<br /> <br /> PHÁT TRIỂN CÔNG CỤ GIÓNG HÀNG VĂN<br /> BẢN SONG NGỮ<br /> <br /> Chuyên ngành: Cơ sở Toán cho Tin học<br /> Mã số:<br /> <br /> 60460110<br /> <br /> LUẬN VĂN THẠC SĨ KHOA HỌC<br /> <br /> NGƯỜI HƯỚNG DẪN KHOA HỌC:<br /> TS Nguyễn Thị Minh Huyền<br /> Hà Nội – 2016<br /> <br /> Lời cảm ơn<br /> Trong quá trình thực hiện luận văn cũng như trong những năm học vừa qua, em đã<br /> nhận được sự chỉ bảo và hướng dẫn tận tâm của TS. Nguyễn Thị Minh Huyền. Em xin<br /> gửi tới cô lời cảm ơn chân thành và sâu sắc nhất.<br /> Ngoài ra, em cũng xin gửi lời cảm ơn tới các thầy giáo, cô giáo, cán bộ, nhân viên Khoa<br /> Toán - Cơ - Tin học, trường Đại học Khoa học tự nhiên, Đại học Quốc gia Hà Nội và<br /> khoa Toán - Cơ - Tin học, trường Đại học quốc gia Tula đã tận tình dạy dỗ và giúp đỡ<br /> em trong những năm trên giảng đường đại học và cao học.<br /> Nhân dịp này, em cũng xin gửi lời cảm ơn tới gia đình, bạn bè đã động viên, khuyến<br /> khích và tạo điều kiện cho em trong quá trình học tập và quá trình thực hiện luận văn<br /> này.<br /> Do hạn chế về kiến thức, kinh nghiệm, thời gian tìm hiểu và thực hiện nên luận văn<br /> chắc chắn còn nhiều thiếu sót. Em rất mong sẽ nhận được nhiều ý kiến đóng góp của<br /> thầy, cô và các bạn để em có được cái nhìn sâu sắc hơn về vấn đề này.<br /> Hà Nội, tháng 12 năm 2016<br /> Học viên<br /> Nguyễn Minh Hải<br /> <br /> Mục lục<br /> Lời cảm ơn<br /> MỞ ĐẦU<br /> <br /> 1<br /> <br /> 1 CÁC CÁCH TIẾP CẬN GIÓNG HÀNG<br /> <br /> 3<br /> <br /> 1.1<br /> <br /> Kiến thức chuẩn bị . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .<br /> <br /> 3<br /> <br /> 1.2<br /> <br /> Bối cảnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .<br /> <br /> 7<br /> <br /> 1.3<br /> <br /> Các hướng tiếp cận gióng hàng hiện nay . . . . . . . . . . . . . . . . . . .<br /> <br /> 9<br /> <br /> 1.3.1<br /> <br /> Phương pháp gióng hàng dựa vào chiều dài câu . . . . . . . . . . .<br /> <br /> 9<br /> <br /> 1.3.2<br /> <br /> Phương pháp gióng hàng dựa vào điểm tương đồng . . . . . . . . . 16<br /> <br /> 1.3.3<br /> <br /> Phương pháp gióng hàng dựa vào từ vựng . . . . . . . . . . . . . . 19<br /> <br /> 1.3.4<br /> <br /> Kết hợp các phương pháp . . . . . . . . . . . . . . . . . . . . . . . 26<br /> <br /> 1.4<br /> <br /> Một số công cụ gióng hàng . . . . . . . . . . . . . . . . . . . . . . . . . . . 29<br /> 1.4.1<br /> <br /> NATools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30<br /> <br /> 1.4.2<br /> <br /> GIZA++<br /> <br /> 1.4.3<br /> <br /> hunalign . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30<br /> <br /> 1.4.4<br /> <br /> Per-Fide . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30<br /> <br /> 1.4.5<br /> <br /> cwb-align . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31<br /> <br /> 1.4.6<br /> <br /> WinAlign . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31<br /> <br /> . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30<br /> <br /> 2 GIÓNG HÀNG VĂN BẢN SONG NGỮ ANH - VIỆT<br /> 2.1<br /> <br /> 33<br /> <br /> Đặc điểm tiếng Anh và tiếng Việt . . . . . . . . . . . . . . . . . . . . . . . 33<br /> <br /> 2.2<br /> <br /> Các nghiên cứu và công cụ về gióng hàng văn bản song ngữ mức câu tiếng<br /> Việt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36<br /> <br /> 2.3<br /> <br /> Công cụ XAlign . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40<br /> 2.3.1<br /> <br /> Thuật toán quy hoạch động . . . . . . . . . . . . . . . . . . . . . . 41<br /> <br /> 2.3.2<br /> <br /> Cấu trúc chương trình . . . . . . . . . . . . . . . . . . . . . . . . . 42<br /> <br /> 2.3.3<br /> <br /> Tiền xử lý dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43<br /> <br /> 2.3.4<br /> <br /> Các cải tiến về thuật toán và tham số trên công cụ viXAlign . . . . 43<br /> <br /> 2.3.5<br /> <br /> Một số hướng cải tiến công cụ đang tiến hành . . . . . . . . . . . . 46<br /> <br /> 2.4<br /> <br /> Thu thập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47<br /> <br /> 2.5<br /> <br /> Kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48<br /> <br /> 2.6<br /> <br /> Ứng dụng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50<br /> 2.6.1<br /> <br /> Sử dụng kho ngữ liệu song ngữ huấn luyện hệ thống dịch máy Moses 50<br /> <br /> KẾT LUẬN<br /> <br /> 53<br /> <br /> TÀI LIỆU THAM KHẢO<br /> <br /> 55<br /> <br />
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2