IT4772 X lý ngôn ng t nhiên
Vi n CNTT-TT, ĐHBKHN
2
Ch ng 6 Mô hình ngôn ngươ
Mô hình ngôn ng
Mô hình n-gram
Perplexity
S a l i chính t
3
INFORMATION EXTRACTION
NATURAL LANGUAGE UNDERSTANDING
NATURAL LANGUAGE GENERATION
DATA + LINGUISTICS + MACHINE LEARNING
END-TO-END
APPLICATIONS
4
Ch ng 6 Mô hình ngôn ngươ
Mô hình ngôn ng
`
From Dan Jurafsky 2018
5
Ch ng 6 Mô hình ngôn ngươ
Mô hình ngôn ng
Tìm t ti p theo bi t các t đng tr c ế ế ướ
“Hôm nay tôi đi...”
P(h c| hôm_nay tôi đi) = ?
P(ch i| hôm_nay tôi đi) = ?ơ
Tính xác su t c a m t chu i
P(<s> hôm_nay tôi đi h c <e>) = ?
6
Ch ng 6 Mô hình ngôn ngươ
Mô hình ngôn ng
ng d ng
S a l i chính t
D ch máy
Tóm t t văn b n
Bi u di n văn b n
7
Ch ng 6 Mô hình ngôn ngươ
Mô hình n-gram
Mô hình unigram
p(w|w
1
w
2
… w
n
) = p(w)
p(w) = (count(w) + 1) / (sum count(w’) + V)
p(<s> hôm_nay tôi đi h c <e>) = p(<s>) *
p(hôm_nay) * p(tôi) * p(đi) * p(h c) * p(<e>)
8
Ch ng 6 Mô hình ngôn ngươ
Mô hình n-gram
Mô hình bigram
p(w|w1 w2 … wn) = p(w|wn)
p(w|wn) = (count(wn w) + 1)
/ (count(wn) + V )
Chú ý: không s d ng đn ế p(wn)
p(<s> hôm_nay tôi đi h c <e>) = p(hôm_nay|<s>)
* p(tôi|hôm_nay) * p(đi|tôi) * p(h c|đi) * p(<e>|h c)
9
Ch ng 6 Mô hình ngôn ngươ
Mô hình n-gram
Mô hình bigram
Backup ngram
10
Ch ng 6 Mô hình ngôn ngươ
Perplexity
Đánh giá ch t l ng c a mô hình ngôn ng ượ
11
Ch ng 6 Mô hình ngôn ngươ
Perplexity
Mô hình bigram
S d ng t p train đ xác đnh tham s cho mô
hình ngôn ng
Tính perplexity trên t p test đc l p v i t p train
12
Ch ng 6 Mô hình ngôn ngươ
S a l i chính t
1-2% l i đánh máy văn b n
10-15% l i gõ câu truy v n
20-40% l i là t có trong t đi n
13
Ch ng 6 Mô hình ngôn ngươ
S a l i chính t
Mô hình kênh nhi u
wnoisy channel w’
decoder
wbest
14
Ch ng 6 Mô hình ngôn ngươ
S a l i chính t
Mô hình kênh nhi u
15
Ch ng 6 Mô hình ngôn ngươ
S a l i chính t
Mô hình kênh nhi u
16
Ch ng 6 Mô hình ngôn ngươ
S a l i chính t
Mô hình kênh nhi u
17
Ch ng 6 Mô hình ngôn ngươ
S a l i chính t
Mô hình kênh nhi u
18
Ch ng 6 Mô hình ngôn ngươ
S a l i chính t
Mô hình kênh nhi u
From Jurafsky (2018)
19
Ch ng 6 Mô hình ngôn ngươ
S a l i chính t
Mô hình kênh nhi u
20
Ch ng 6 Mô hình ngôn ngươ
S a l i chính t
Mô hình kênh nhi u
Xây d ng confusion matrix s d ng ph ng ươ
pháp Expectation – Maximization
Kernighan, M. D., Church, K. W., and Gale, W. A. (1990). “A spelling
correction program base on a noisy channel model”. In COLING-90,
Helsinki, Vol. II, pp. 205–211.