Mô hình ngôn ng Ngram - Cao Văn Việt K51KHMT
ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Cao Văn Việt
XÂY DNG MÔ HÌNH NGÔN NG CHO TING VIT
KHOÁ LUN TT NGHIỆP ĐẠI HC H CHÍNH QUY
Ngành: Khoa hc máy tính
NI – 2010
LI CẢM ƠN
Đầu tiên, cho phép tôi gi li cảm ơn sâu sc tới TS Lê Anh Cường, người đã
trc tiếp hướng dn, ch bo và tạo điều kin cho tôi trong quá trình hoàn thành lun
văn này.
Đồng thi tôi cũng xin gửi li cảm ơn chân thành tới các thầy cô giáo trường Đại
hc Công Nghệ, đặc bit là các thy cô trong b môn Khoa hc Máy tính , nhng
người đã trc tiếp ging dy, hướng dn và tạo điều kin cho tôi trong quá trình hc
tp và thc hành trường.
Cui cùng, tôi xin gi gi cảm ơn tới tt c các bạn đồng học và gia đình đã ng
hộ, giúp đỡ tôi hoàn thành luận văn
M TT
Mô hình ngôn ng là mt b phn quan trng ca lĩnh vực x lý ngôn ng t
nhiên. Có rt nhiu lĩnh vực trong x lý ngôn ng t nhiên s dng mô hình ngôn ng
như: kim li chính t, dch máy hay phân đoạn t... Trên thế giới đã rt nhiu nước
công b nghiên cu v mô hình ngôn ng áp dng cho ngôn ng ca hnhưng Vit
Nam, vic nghiên cu và xây dng mt mô hình ngôn ng chun cho tiếng Vit vn
còn mi m và gp nhiều kkhăn. Chính điều này đã gi ý và thúc đẩy chúng tôi la
chn và tp trung nghiên cu vấn đề này để có th tạo điều kin cho vic xngôn
ng tiếng Vit vn vô cùng phong phú ca chúng ta.
Luận văn sẽ trình bày khái quát v mô hình ngôn ngữ, đồng thi ch ra các khó
khăn còn tn tại để rồi đưa ra những phương pháp khc phc, trong đó trng tâm
nghiên cứu các phương pháp làm mịn. Trong luận văn này này, chúng tôi s dng ch
yếu b công c mã ngun mở SRILIM để xây dng mô hình ngôn ng cho tiếng Vit,
sau đó áp dụng mô hình ngôn ngữ đã tạo ra để tính toán độ hn lon thông tin của văn
bn và dch máy thng kê. Kết quả có được sẽ là cơ sở chính đ chúng tôi ch ra
phương pháp làm mịn nào là tt nht khi s dng trong vic xây dng mô hình ngôn
ng tiếng Vit.
MC LC
Chương 1 Gii thiu vn đề................................................................................ 1
1.1 Đặt vấn đề: ......................................................................................................... 1
1.2 Mc tiêu: ............................................................................................................ 1
1.3 Cu trúc ca luận văn: ........................................................................................ 2
Chương 2 Mô hình ngôn ng Ngram:.................................................................3
2.1 Khái quát:........................................................................................................... 3
2.2 Công thc tính “xác sut thô”: ............................................................................ 3
2.3 Khó khăn khi xây dựng mô hình ngôn ng N-gram ............................................ 4
2.3.1 Phân bkhông đều: .................................................................................................4
2.3.2 Kích thước b nh ca mô hình ngôn ng................................................................5
2.4 Các phương pháp làm mịn .................................................................................. 5
2.4.1 Các thut toán chiết khu (discounting): .................................................................5
2.4.2 Phương pp truy hi:..............................................................................................8
2.4.3 Phương pp ni suy: ............................................................................................10
2.4.4 Phương pp làm mịn Kneser - Ney: .....................................................................10
2.4.5 Phương pp làm mịn Kneser - Ney ci tiến bi Chen - GoodMan: .......................12
2.5 K thut làm gim kích thước d liu:.............................................................. 13
2.5.1 Loi b (pruning):..................................................................................................13
2.5.2 Đồng hóa (Quantization):.......................................................................................15
2.5.3 Nén (Compression):...............................................................................................16
2.6 Độ đo:............................................................................................................... 16
2.6.1 Entropy – Độ đo thông tin:.....................................................................................16
2.6.2 Perplexity – Độ hn lon thông tin:........................................................................18
2.6.3 Error rate – T l li: ..............................................................................................18
Chương 3 ng dng ca mô hình ngôn ng trong mô hình dch máy thng: 19
3.1 Dch máy:......................................................................................................... 19
3.2 Dch máy thng kê:........................................................................................... 19
3.2.1 Gii thiu: .............................................................................................................19
3.2.2 Nguyên và các thành phn: ................................................................................19
3.2.3 nh dch: ........................................................................................................21
3.2.4 B gii mã: ............................................................................................................25
3.3 Các phương pháp đánh giá bản dch: ................................................................ 25
3.3.1 Đánh giá trực tiếp bằng con người: ........................................................................25
3.3.2 Đánh giá tự động: phương pháp BLEU ..................................................................26
Chương 4 Thc nghim: ................................................................................... 28
4.1 Công c: ........................................................................................................... 28
4.1.1 B công c tr giúp xây dng tập văn bn hun luyn: ..........................................28
4.1.2 Công c tách t cho tiếng Vit - vnTokenizer: .......................................................28
4.1.3 B công c xây dng mô hình ngôn ng - SRILM:................................................29
4.1.4 B công c xây dng mô hình dch máy thng kê – MOSES: ................................32
4.2 D liu hun luyn: .......................................................................................... 34
4.3 Kết qu:............................................................................................................ 34
4.3.1 Số lượng các cm ngram:.......................................................................................34
4.3.2 Tn s ca tn s: ..................................................................................................36
4.3.3 Cut-off (loi b):....................................................................................................39
4.3.4 Các phương pháp làm mịn: ....................................................................................40
4.3.5 Áp dng vào mô hình dch máy thng kê:..............................................................41
Chương 5 Kết lun............................................................................................ 43
Tài liu tham kho................................................................................................ 44