
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
KIM PI SÍCH
XÂY DỰNG HỆ THỐNG DỊCH TỰ ĐỘNG VIỆT - KHMER
TRỢ GIÚP DỰ BÁO THỜI TIẾT TẠI
CÁC ĐÀI PHÁT THANH TRUYỀN HÌNH
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01
LUẬN VĂN THẠC SĨ KỸ THUẬT
Người hướng dẫn khoa học: PGS.TS. Phan Huy Khánh
Đà Nẵng - Năm 2014

i
LỜI CAM ĐOAN
Tôi xin cam đoan:
1 Những nội dung trong luận văn này là do tôi thực hiện dưới
sự hướng dẫn trực tiếp của PGS.TS. Phan Huy Khánh.
2 Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ
ràng tên tác giả, tên công trình, thời gian, địa điểm công bố.
3 Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay
gian trá, tôi xin chịu hoàn toàn trách nhiệm.
Tác giả
Kim Pi Sích

ii
MỤC LỤC
LỜI CAM ĐOAN ............................................................................................. i
MỤC LỤC ........................................................................................................ ii
DANH MỤC CÁC TỪ VIẾT TẮT ............................................................... vi
DANH MỤC BẢNG ...................................................................................... vii
DANH MỤC HÌNH ....................................................................................... vii
MỞ ĐẦU .......................................................................................................... 1
CHƯƠNG 1 CƠ SỞ LÝ THUYẾT ................................................................ 6
1.1. TỔNG QUAN VỀ BÀI TOÁN DỊCH TỰ ĐỘNG ......................... 6
1.1.1. Lịch sử dịch máy .................................................................. 7
1.1.2. Vấn đề dịch tự động trong tiếng Việt ................................... 9
1.1.3. Một số phương pháp dịch máy ............................................. 9
1.1.4. Một số dịch vụ dịch máy đã có .......................................... 12
1.2. XỬ LÝ CÂU TIẾNG VIỆT .......................................................... 13
1.2.1. Tách câu ............................................................................. 13
1.2.2.Tách từ ................................................................................. 15
1.3. TÌM HIỂU TIẾNG KHMER ......................................................... 21
1.3.1. Giới thiệu dân tộc Khmer ................................................... 21
1.3.2. Lịch sử hình thành tiếng Khmer......................................... 23

iii
1.3.3. Chữ viết Khmer .................................................................. 24
1.3.4. Đặc điểm ngữ âm tiếng Khmer .......................................... 28
1.3.5. Đặc điểm từ vựng tiếng Khmer .......................................... 30
1.3.6. Đặc điểm ngữ pháp tiếng Khmer ....................................... 31
1.4. NHẬN XÉT HAI NGÔN NGỮ VIỆT VÀ KHMER .................... 31
1.4.1. Những đặc điểm tương đồng .............................................. 31
1.4.2. Những nét dị biệt ................................................................ 32
1.4.3. Khả năng xây dựng một hệ thống dịch tự động ................. 34
1.5. HIỆN TRẠNG ỨNG DỤNG TIN HỌC HIỆN NAY ................... 34
1.5.1. Hiện trạng ........................................................................... 34
1.5.2. Một số kết quả hiện có ....................................................... 35
1.5.3. Nhu cầu xử lý ngôn ngữ tiếng Khmer ................................ 36
1.6. NGỮ LIỆU SONG NGỮ ............................................................... 37
1.6.1. Khái niệm ........................................................................... 37
1.6.2. Vấn đề thu thập dữ liệu song ngữ ...................................... 37
1.6.3. Công cụ xây dựng kho ngữ liệu song ngữ ......................... 38
1.6.4. Một số dữ liệu song ngữ Việt – Khmer ............................. 38
CHƯƠNG 2 GIẢI PHÁP XÂY DỰNG HỆ THỐNG DỊCH TỰ ĐỘNG
VIỆT KHMER............................................................................................... 40
2.1. PHÂN TÍCH BẢN TIN DỰ BÁO THỜI TIẾT ............................ 40
2.1.1. Phân loại các bản tin dự báo thời tiết ................................. 40
2.1.2. Phân tích các bản tin dự báo thời tiết ................................. 41

iv
2.1.3. Phân tích các mẫu câu dự báo thời tiết .............................. 52
2.2. MÔ HÌNH KIẾN TRÚC HỆ THỐNG DỊCH VIỆT – KHMER ... 53
2.2.1. Mô hình kiến trúc hệ thống ................................................ 53
2.2.2. Phương pháp dịch ............................................................... 54
2.2.3. Phương tách từ ................................................................... 55
2.2.4. Dịch bản tin ........................................................................ 57
2.2.5. Dịch số và dấu câu ............................................................. 58
2.2.6. Dịch giờ, ngày tháng .......................................................... 60
2.3. XÂY DỰNG CẤU TRÚC KHO NGỮ LIỆU SONG NGỮ ......... 63
2.3.1. Tổng quan về quá trình xây dựng kho ngữ liệu ................. 63
2.2. 2. Cấu trúc kho ngữ liệu ........................................................ 64
2.2.3. Kỹ thuật chuyển đổi dữ liệu ............................................... 66
CHƯƠNG 3 TRIỂN KHAI THỬ NGHIỆM HỆ THỐNG DỊCH VIỆT –
KHMER ......................................................................................................... 68
3.1. CHỌN MÔI TRƯỜNG, CÔNG CỤ XÂY DỰNG HỆ THỐNG . 68
3.2. THU THẬP DỮ LIỆU VÀ CẬP NHẬT KHO NGỮ LIỆU SONG
NGỮ ...................................................................................................... 68
3.2.1. Chọn nguồn dữ liệu ............................................................ 68
3.2.2. Thu thập dữ liệu ................................................................. 69
3.2.3. Cập nhật dữ liệu cho kho ngữ liệu song ngữ ..................... 69
3.3. THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ ................................ 87
3.3.1. Giao diện hệ thống ............................................................. 87

