ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
NGUYN HNG THANH
T ĐỘNG NHN DNG NGÔN NG
DA VÀO HC SÂU
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DN KHOA HC: TS. NGUYN VĂN VINH
Hà Ni 2021
ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
NGUYN HNG THANH
T ĐỘNG NHN DNG NGÔN NG
DA VÀO HC SÂU
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DN KHOA HC: TS. NGUYN VĂN VINH
Hà Ni 2021
i
LỜI CAM ĐOAN
Tôi cam đoan luận văn được thc hiện dưới s ng dn ca TS.Nguyn
Văn Vinh. Các s liu, kết qu kim tra d liu kim th trong luận văn trung
thực và chưa từng được ai công b trong bt k công trình nào khác.
Hà Ni, Ngày 01 tháng 12 năm 2021
Người cam đoan
Nguyn Hng Thanh
ii
LI CẢM ƠN
Lời đầu tiên em xin gi li cảm ơn đến toàn th các ging viên trong Khoa
Công ngh thông tin - Trường Đại hc Công ngh - Đại hc Quc gia Hà Nội đã
truyền đạt kiến thức định hướng nghiên cu cho em trong thi gian em hc tp
tại Trường.
Em xin gi li cảm ơn đến các cán b ph trách thuc Khoa Công ngh
thông tin đào tạo sau đại hc, những người đã quản lý, tư vấn và h tr em trong
quá trình hc tập cũng như làm luậnn.
Em xin gi li cảm ơn u sắc đến TS. Nguyễn Văn Vinh, người thầy đã
trc tiếp tận tình hướng dn, to mọi điều kin thun li cho em trong sut thi
gian làm luận văn tốt nghip.
Cui cùng, Em xin gi li cm ơn đến bạn bè, đồng nghiệp cũng như gia
đình luôn tạo điều kiện để em hoàn thành luận văn.
Tuy nhiên, do thi gian hn hp, mặc đã n lc hết sức mình nhưng chắc
rng luận văn này khó tránh khi nhng thiếu sót. Em rt mong nhận được s chia
sẽ, đóng góp ý kiến ca ging viên và các bn.
Hà Ni, Ngày 01 tháng 12 năm 2021
Hc viên
Nguyn Hng Thanh
iii
MC LC
LỜI CAM ĐOAN .................................................................................................................... i
LI CẢM ƠN ......................................................................................................................... ii
Danh mc các ký hiu và ch viết tt ......................................................................... v
Danh mc các bng .......................................................................................................... vi
Danh mc các hình vẽ, đồ th ..................................................................................... vii
M ĐẦU ................................................................................................................................. 1
CHƯƠNG 1: TỔNG QUAN V BÀI TOÁN NHN BIT NGÔN NG ............... 3
1.1 Gii thiu chung .......................................................................................... 3
1.2 Các phương pháp xác định ngôn ng .......................................................... 3
1.2.1 Mô hình ngôn ng ................................................................................ 3
1.2.2 Phương pháp xác định ngôn ng da trên n-gram ............................... 6
1.2.3 Phương pháp xác định ngôn ng da vào Naive Bayes ...................... 7
1.2.4 Phương pháp xác định ngôn ng da vào máy h tr vectơ (SVM) ... 8
1.2.5 Phương pháp láng giềng gn nht (K-Nearest Neighbor).................... 9
1.2.6 Phương pháp Word2vec ..................................................................... 10
1.2.6.1 Skip-gram .................................................................................... 12
1.2.6.2 Túi t liên tc (CBOW) .............................................................. 16
1.2.7 Phương pháp xác định ngôn ng da vào hc sâu ............................. 17
CHƯƠNG 2: MÔ HÌNH MẠNG LSTM ....................................................................... 18
2.1 Mạng Nơ ron nhân tạo .............................................................................. 18
2.1.1 Hàm kích hot. ................................................................................... 19
2.1.2 Chức năng kích hoạt đầu ra ................................................................ 22
2.2 Mạng nơ ron hồi qui RNN ........................................................................ 25
2.3 Mng LSTM .............................................................................................. 27
2.3.1 Cổng đầu vào, cng quên và cổng đầu ra .......................................... 27
2.3.2 Ô nh tiềm năng ................................................................................. 28
2.3.3 Ô nh .................................................................................................. 29
2.3.4 Các trng thái n ................................................................................. 30
2.4 K thut Dropout ....................................................................................... 31