UBND TỈNH BÌNH DƢƠNG
TRƢỜNG ĐẠI HC TH DU MT
NGUYN ANH DŨNG
NHN DIN TÊN RIÊNG TING VIT BNG
PHƢƠNG PHÁP HỌC SÂU
LUẬN VĂN THẠC SĨ
CHUYÊN NGÀNH: H THNG THÔNG TIN
MÃ S: 8480104
NGƢỜI HƢỚNG DN KHOA HC
TS. BÙI THANH HÙNG
BÌNH DƢƠNG - 2019
ii
LỜI CAM ĐOAN
Tôi Nguyn Anh Dũng, hc viên lp CH16HT, ngành H thng thông tin,
trƣờng Đại hc Th Du Mt. Tôi cam đoan, luận văn ca tôi vi đề tài Nhn din
tên riêng tiếng Vit bng phƣơng pháp học sâu do tôi tìm hiu, nghiên cu
đƣợc s hƣớng dn tn tình ca TS. Bùi Thanh Hùng, lun văn y ca tôi tham
kho t các bài báo, tài liu, công trình nghiên cu của ngƣời khác nhƣng tôi đều
ghi rõ trong tài liu tham kho. Tôi xin chu trách nhim v lời cam đoan này.
Bình Dương, ngày 01 tháng 6 năm 2019
Ngƣi viết luận văn
Nguyn Anh Dũng
iii
LI CẢM ƠN
Trong quá trình thc hin luận văn Nhn din tên riêng tiếng Vit bng
phƣơng pháp học sâu‖, tôi đã đƣợc s hƣớng dn nhit tình ca TS. Bùi Thanh
Hùng. Thy đã dành rất nhiu thi gian quý báu của mình để hƣớng dn chi tiết,
nghe báo cáo th động viên tinh thn tôi trong những lúc khó khăn khi thực hin
luận văn. Tôi chân thành cảm ơn thầy!
Tôi cũng bày tỏ lòng biết ơn sâu sắc đến các thầy cô đã giảng dy tôi tn tình,
truyền đạt nhng kiến thc b ích cho tôi trong sut thi gian hc tại trƣờng các
thy cô của trƣờng Đại hc Th Du Một đã tạo điều kin tt nht để tôi hoàn thành
luận văn này.
Cui cùng, tôi cũng gửi li cm ơn đến gia đình, đồng nghip, các anh ch
hc chung lớp đã đoàn kết, giúp đỡ, động viên tôi trong sut thi gian hc va qua.
Mt ln na, tôi xin trân trng cảm ơn.
Bình Dƣơng, ngày tháng năm 2019
Ngƣi viết luận văn
iv
MC LC
MC LC ................................................................................................................ IV
TÓM TT LUẬN VĂN ............................................................................................. 1
DANH MC T VIT TT ...................................................................................... 2
DANH MC CÁC BNG .......................................................................................... 3
DANH MC HÌNH VẼ, ĐỒ TH .............................................................................. 4
CHƢƠNG I. GII THIU CHUNG .......................................................................... 6
1.1. LÍ DO THC HIN ĐỀ TÀI ....................................................................................... 6
1.2. MC TIÊU NGHIÊN CU ......................................................................................... 7
1.3. ĐỐI TƢỢNG, PHM VI NGHIÊN CU ....................................................................... 7
1.4. PHƢƠNG PHÁP NGHIÊN CU .................................................................................. 7
1.5. Ý NGHĨA KHOA HỌC VÀ Ý NGHĨA THỰC TIN CỦA ĐỀ TÀI ..................................... 7
1.5.1. Ý nghĩa khoa hc........................................................................................... 7
1.5.2. Ý nghĩa thực tin ........................................................................................... 8
1.6. B CC LUẬN VĂN ................................................................................................ 9
CHƢƠNG II. S LÝ THUYT ......................................................................... 11
2.1. X LÝ NGÔN NG T NHIÊN ............................................................................... 11
2.1.1. Tách t (Tokenizer) ..................................................................................... 12
2.1.2. Xác định loi t trong câu (Part-of-Speech tagging - POS tagging) ......... 14
2.1.3. Xác định cm t (Chunking) ....................................................................... 15
2.1.4. Phân tích cú pháp (Parsing) ....................................................................... 17
2.2. CÁC PHƢƠNG PHÁP BIU DIN T I DẠNG VÉC TƠ ....................................... 18
2.2.1. Biu din túi t - Bag of words ................................................................... 18
2.2.2 Biu din One-hot-vector ............................................................................. 19
2.2.3. Túi t liên tc - CBOW ............................................................................... 21
2.2.4. Skip gram .................................................................................................... 24
2.3. HC SÂU - DEEP LEARNING ................................................................................ 27
2.3.1. Mạng nơ ron nhân tạo (ANN) ..................................................................... 30
2.3.2. Mạng nơ-ron hi quy RNN (Recurrent Neural Network) ........................... 35
2.3.3. B nh dài-ngn LSTM (Long-short term memory) ................................... 37
v
2.3.4. Mạng nơ ron ngn dài song song LSTM (Bidirectional Long-short term
memory) ..................................................................................................................... 42
2.4. NHN DIN TÊN RIÊNG (NAME ENTITY RECOGNITION NER) .......................... 43
2.4.1. Tng quan v bài toán Nhn din tên riêng ............................................... 43
2.4.2. Hướng tiếp cn nghiên cu ......................................................................... 44
2.4.3. Các nghiên cu gần đây ............................................................................. 44
2.4.4. Đề xut hưng nghiên cu .......................................................................... 45
CHƢƠNG III. MÔ HÌNH ĐỀ XUT ...................................................................... 46
3.1. TỔNG QUAN MÔ HÌNH ĐỀ XUT........................................................................... 46
3.2. CÁC ĐẶC TRƢNG CỦA MÔ HÌNH ĐỀ XUT ............................................................ 47
3.2.1. T nhúng Word embeddings .................................................................... 47
3.2.2. Các đặc trưng cú pháp................................................................................ 48
3.3. NHN DIN TÊN RIÊNG TING VIT .................................................................... 48
3.3.1 Mô hình hc sâu trong bài toán nhn din tên riêng tiếng Vit .................. 51
3.3.2. Nhn din tên riêng..................................................................................... 53
CHƢƠNG IV. THỰC NGHIM .............................................................................. 55
4.1. KHO D LIU VLSP ............................................................................................ 55
4.2. PHƢƠNG PHÁP ĐÁNH GMÔ HÌNH ..................................................................... 57
4.3.1 Thc nghim gia phương pháp LSTM và BiLSTM với đặc trưng từ ......... 59
4.3.2 Thc nghim BiLSTM vi đặc trưng từ và s vòng hun luyn khác nhau . 60
4.3.3 Thc nghim phương pháp s dng các lp BiLSTM với đặc trưng từ ...... 61
4.3.4 Thc nghiệm phương pháp BiLSTM với đặc trưng từ và t l Dropout khác
nhau ........................................................................................................................... 61
4.4. XÂY DNG NG DNG WEB TRC QUAN HÓA KT QU ..................................... 62
CHƢƠNG V. KẾT LUN VÀ HƢNG PHÁT TRIN ......................................... 67
5.1. KT QU ĐẠT ĐƢỢC ............................................................................................ 67
5.2. HƢỚNG PHÁT TRIN ............................................................................................ 67
TÀI LIU THAM KHO ......................................................................................... 68