
IT4772 X lý ngôn ng t nhiênử ữ ự
Vi n CNTT-TT, ĐHBKHNệ
2
Ch ng 6 Mô hình ngôn ngươ ữ
Mô hình ngôn ngữ
Mô hình n-gram
Perplexity
S a l i chính tử ỗ ả
3
INFORMATION EXTRACTION
NATURAL LANGUAGE UNDERSTANDING
NATURAL LANGUAGE GENERATION
DATA + LINGUISTICS + MACHINE LEARNING
END-TO-END
APPLICATIONS
4
Ch ng 6 Mô hình ngôn ngươ ữ
Mô hình ngôn ngữ
`
From Dan Jurafsky 2018

5
Ch ng 6 Mô hình ngôn ngươ ữ
Mô hình ngôn ngữ
●Tìm t ti p theo bi t các t đng tr cừ ế ế ừ ằ ướ
“Hôm nay tôi đi...”
P(h c| hôm_nay tôi đi) = ?ọ
P(ch i| hôm_nay tôi đi) = ?ơ
●Tính xác su t c a m t chu i ấ ủ ộ ỗ
P(<s> hôm_nay tôi đi h c <e>) = ?ọ
6
Ch ng 6 Mô hình ngôn ngươ ữ
Mô hình ngôn ngữ
●ng d ngỨ ụ
S a l i chính tử ỗ ả
D ch máyị
Tóm t t văn b nắ ả
Bi u di n văn b nể ễ ả
7
Ch ng 6 Mô hình ngôn ngươ ữ
Mô hình n-gram
Mô hình unigram
●p(w|w
1
w
2
… w
n
) = p(w)
●p(w) = (count(w) + 1) / (sum count(w’) + V)
p(<s> hôm_nay tôi đi h c <e>) = p(<s>) * ọ
p(hôm_nay) * p(tôi) * p(đi) * p(h c) * p(<e>)ọ
8
Ch ng 6 Mô hình ngôn ngươ ữ
Mô hình n-gram
Mô hình bigram
●p(w|w1 w2 … wn) = p(w|wn)
●p(w|wn) = (count(wn w) + 1)
/ (count(wn) + V )
●Chú ý: không s d ng đn ử ụ ế p(wn)
p(<s> hôm_nay tôi đi h c <e>) = p(hôm_nay|<s>) ọ
* p(tôi|hôm_nay) * p(đi|tôi) * p(h c|đi) * p(<e>|h c)ọ ọ

9
Ch ng 6 Mô hình ngôn ngươ ữ
Mô hình n-gram
Mô hình bigram
●Backup ngram
10
Ch ng 6 Mô hình ngôn ngươ ữ
Perplexity
●Đánh giá ch t l ng c a mô hình ngôn ngấ ượ ủ ữ
11
Ch ng 6 Mô hình ngôn ngươ ữ
Perplexity
●Mô hình bigram
●S d ng t p train đ xác đnh tham s cho mô ử ụ ậ ể ị ố
hình ngôn ngữ
●Tính perplexity trên t p test đc l p v i t p trainậ ộ ậ ớ ậ
12
Ch ng 6 Mô hình ngôn ngươ ữ
S a l i chính tử ỗ ả
●1-2% l i đánh máy văn b nỗ ả
●10-15% l i gõ câu truy v nỗ ấ
●20-40% l i là t có trong t đi nỗ ừ ừ ể

13
Ch ng 6 Mô hình ngôn ngươ ữ
S a l i chính tử ỗ ả
Mô hình kênh nhi uễ
wnoisy channel w’
decoder
wbest
14
Ch ng 6 Mô hình ngôn ngươ ữ
S a l i chính tử ỗ ả
Mô hình kênh nhi uễ
15
Ch ng 6 Mô hình ngôn ngươ ữ
S a l i chính tử ỗ ả
Mô hình kênh nhi uễ
16
Ch ng 6 Mô hình ngôn ngươ ữ
S a l i chính tử ỗ ả
Mô hình kênh nhi uễ

17
Ch ng 6 Mô hình ngôn ngươ ữ
S a l i chính tử ỗ ả
Mô hình kênh nhi uễ
18
Ch ng 6 Mô hình ngôn ngươ ữ
S a l i chính tử ỗ ả
Mô hình kênh nhi uễ
From Jurafsky (2018)
19
Ch ng 6 Mô hình ngôn ngươ ữ
S a l i chính tử ỗ ả
Mô hình kênh nhi uễ
20
Ch ng 6 Mô hình ngôn ngươ ữ
S a l i chính tử ỗ ả
Mô hình kênh nhi uễ
●Xây d ng confusion matrix s d ng ph ng ự ử ụ ươ
pháp Expectation – Maximization
Kernighan, M. D., Church, K. W., and Gale, W. A. (1990). “A spelling
correction program base on a noisy channel model”. In COLING-90,
Helsinki, Vol. II, pp. 205–211.