i
S hóa bi Trung tâm Hc liu ĐHTN http://www.lrc.tnu.edu.vn
ĐẠI HC THÁI NGUYÊN
TRƢỜNG ĐẠI HC CÔNG NGH THÔNG TIN
VÀ TRUYN THÔNG
VŨ TH HNG
CÁC PHƢƠNG PHÁP PHÂN ĐON TING
VIT VÀ NG DNG
LUẬN VĂN THẠC SĨ KHOA HC MÁY TÍNH
Thái Nguyên - m 2015
i
S hóa bi Trung tâm Hc liu ĐHTN http://www.lrc.tnu.edu.vn
ĐẠI HOC THÁI NGUYÊN
TRƢỜNG ĐẠI HC CÔNG NGH THÔNG TIN
TRUYN THÔNG
VŨ THỊ HNG
CÁC PHƢƠNG PHÁP PHÂN ĐON TING
VIT VÀ NG DNG
Chuyên ngành: KHOA HC MÁY TÍNH
Mã s: 60.48.01
LUẬN VĂN THẠC SĨ KHOA HC MÁY TÍNH
NGƢỜI HƢỚNG DN KHOA HC
TS. BÙI VĂN THANH
Thái Nguyên - m 2015
ii
S hóa bi Trung tâm Hc liu ĐHTN http://www.lrc.tnu.edu.vn
MC LC
Trang
LI CẢM ƠN ............................................................................................... v
LỜI CAM ĐOAN ........................................................................................ vi
DANH MC CÁC KÝ HIU VÀ CH VIT TT ................................. vii
DANH MC BNG .................................................................................. viii
DANH MC HÌNH ..................................................................................... ix
M ĐẦU ....................................................................................................... 1
Chƣơng 1. TỔNG QUAN ............................................................................. 6
1.1. KHÁI QUÁT V TING VIT ........................................................ 6
1.1.1. Đặc điểm t tiếng Vit ................................................................ 6
1.1.2. Các t loi tiếng Vit .................................................................. 7
1.2. VẤN ĐỀ PHÂN ĐOẠN TING VIT ........................................... 10
1.2.1. T vng tiếng Vit .................................................................... 10
1.2.2. Tiếng đơn vị cu to lên t .................................................... 11
1.2.3. Cu to t .................................................................................. 13
1.3. PHÂN ĐOẠN T TING VIT BNG MÁY TÍNH ................... 17
1.4. TNG KẾT CHƢƠNG .................................................................... 18
Chƣơng 2. MT S PHƢƠNG PHÁP PHÂN ĐOẠN VĂN BN TING
VIT ............................................................................................................ 19
2.1. MÔ HÌNH LRMM ........................................................................... 19
2.1.1. Thuật toán Maximum Matching đơn gin ................................ 19
iii
S hóa bi Trung tâm Hc liu ĐHTN http://www.lrc.tnu.edu.vn
2.1.2. Thut toán Maximum Matching phc tp ................................ 19
2.2. PHƢƠNG PHÁP WFST (Weighted Finite-State Transducer) ........ 20
2.3. MÔ HÌNH HC MÁY CRF ............................................................ 23
2.3.1. Định nghĩa CRF ......................................................................... 23
2.3.2. Hàm tiềm năng của các mô hình CRF ....................................... 26
2.3.3. Conditional Random Fields ....................................................... 26
2.4. TNG KẾT CHƢƠNG .................................................................... 28
Chƣơng 3. BÀI TOÁN PHÂN ĐOẠN TING VIT ............................... 29
3.1. PHÁT BIU BÀI TOÁN ................................................................. 29
3.1.1. Cấu trúc chƣơng trình ............................................................... 30
3.1.2. Tin x lý s liu ...................................................................... 32
3.1.3. Tách câu .................................................................................... 34
3.1.4. Tách t ...................................................................................... 36
3.1.5. Kh nhp nhng ........................................................................ 36
3.2. CÁC LOI NHP NHNG KHI TÁCH T ................................. 36
3.2.1. Nhp nhng do so khp cực đại FMM/BMM sinh ra .............. 37
3.2.2. Nhp nhng theo mt s loi khác ............................................ 37
3.3. CÁCH KH NHP NHNG .......................................................... 41
3.3.1 Ci tiến phƣơng pháp so khớp cực đại ....................................... 41
3.3.2 Kh nhp nhng theo mt s loi khác ...................................... 43
3.4. TNG KẾT CHƢƠNG .................................................................... 50
Chƣơng 4. THỬ NGHIỆM VÀ ĐÁNH GIÁ ............................................. 52
iv
S hóa bi Trung tâm Hc liu ĐHTN http://www.lrc.tnu.edu.vn
4.1. KHO NG LIU TH NGHIỆM VÀ CÁCH ĐÁNH GIÁ ........... 52
4.2. QUY TRÌNH TH NGHIM .......................................................... 54
4.3. KT QU TH NGHIM .............................................................. 55
4.4. GIAO DIỆN CHƢƠNG TRÌNH ỨNG DNG ............................... 56
KT LUN VÀ KIN NGH..................................................................... 60
DANH MC TÀI LIU THAM KHO .................................................... 62