TR(cid:584)(cid:860)NG (cid:264)(cid:605)I H(cid:844)C KHOA H(cid:844)C T(cid:880) NHIÊN KHOA CÔNG NGH(cid:643) THÔNG TIN
(cid:37)(cid:856) MÔN CÔNG NGH(cid:643) TRI TH(cid:872)C
PHAN QU(cid:1236)C LÂN
PH(cid:1132)(cid:1130)NG PHÁP THÊM D(cid:1192)U TI(cid:1218)NG VI(cid:1226)T
VÀO V(cid:258)N B(cid:1190)N TI(cid:1218)NG VI(cid:1226)T KHÔNG D(cid:1192)U
KHOÁ LU(cid:1200)N C(cid:1264) NHÂN TIN H(cid:1232)C
TP. HCM, N(cid:258)M 2005
TR(cid:584)(cid:860)NG (cid:264)(cid:605)I H(cid:844)C KHOA H(cid:844)C T(cid:880) NHIÊN KHOA CÔNG NGH(cid:643) THÔNG TIN (cid:37)(cid:856) MÔN CÔNG NGH(cid:643) TRI TH(cid:872)C
PHAN QU(cid:1236)C LÂN – 0112267
PH(cid:1132)(cid:1130)NG PHÁP THÊM D(cid:1192)U TI(cid:1218)NG VI(cid:1226)T
VÀO V(cid:258)N B(cid:1190)N TI(cid:1218)NG VI(cid:1226)T KHÔNG D(cid:1192)U
KHOÁ LU(cid:1200)N C(cid:1264) NHÂN TIN H(cid:1232)C
GIÁO VIÊN H(cid:1132)(cid:1246)NG D(cid:1198)N
Th.S PH(cid:1188)M PH(cid:1188)M TUY(cid:1218)T TRINH
1
NIÊN KHÓA 2001 – 2005
(cid:47)(cid:1249)i c(cid:1191)m (cid:1131)n
(cid:47)(cid:1249)i (cid:255)(cid:1195)u tiên, em xin chân thành c(cid:1191)m (cid:1131)n cô Ph(cid:1189)m Ph(cid:1189)m Tuy(cid:1219)t Trinh, cô (cid:255)ã tr(cid:1269)c
ti(cid:1219)p h(cid:1133)(cid:1247)ng d(cid:1199)n và t(cid:1189)o (cid:255)(cid:76)(cid:1221)u ki(cid:1227)n cho em nghiên c(cid:1261)u và hoàn thành lu(cid:1201)n v(cid:259)n này.
Em c(cid:458)ng xin chân thành c(cid:1191)m (cid:1131)n th(cid:1195)y (cid:264)inh (cid:264)(cid:76)(cid:1221)n, th(cid:1195)y (cid:255)ã h(cid:1243) tr(cid:1255), giúp (cid:255)(cid:1253) em r(cid:1193)t
nhi(cid:1221)u trong quá trình th(cid:1269)c hi(cid:1227)n. Và em c(cid:458)ng xin c(cid:1191)m (cid:1131)n t(cid:1193)t c(cid:1191) các th(cid:1195)y cô trong khoa
Công ngh(cid:1227) thông tin (cid:255)ã t(cid:1201)n tình ch(cid:1229) b(cid:1191)o và giúp (cid:255)(cid:1253) em trong su(cid:1237)t quá trình h(cid:1233)c t(cid:1201)p
trong tr(cid:1133)(cid:1249)ng.
Con xin chân thành c(cid:1191)m (cid:1131)n ba m(cid:1213), ông bà, anh em và ng(cid:1133)(cid:1249)i thân trong gia (cid:255)ình
(cid:255)ã t(cid:1189)o m(cid:1233)i (cid:255)(cid:76)(cid:1221)u ki(cid:1227)n t(cid:1237)t nh(cid:1193)t cho con h(cid:1233)c t(cid:1201)p và (cid:255)(cid:1245)ng viên, khích l(cid:1227) con trong quá trình
th(cid:1269)c hi(cid:1227)n lu(cid:1201)n v(cid:259)n.
Và cu(cid:1237)i cùng, tôi xin g(cid:1265)i l(cid:1249)i c(cid:1191)m (cid:1131)n (cid:255)(cid:1219)n t(cid:1193)t c(cid:1191) b(cid:1189)n bè, (cid:255)(cid:1211)c bi(cid:1227)t là anh Toàn, b(cid:1189)n
Sinh, b(cid:1189)n Kh(cid:1133)(cid:1131)ng …, nh(cid:1267)ng ng(cid:1133)(cid:1249)i (cid:255)ã h(cid:1243) tr(cid:1255) và giúp tôi hoàn thi(cid:1227)n lu(cid:1201)n v(cid:259)n này.
(cid:48)(cid:1211)c dù em (cid:255)ã c(cid:1237) g(cid:1203)ng hoàn thành lu(cid:1201)n v(cid:259)n trong ph(cid:1189)m vi và kh(cid:1191) n(cid:259)ng cho phép
nh(cid:1133)ng ch(cid:1203)c ch(cid:1203)n s(cid:1217) không tránh kh(cid:1235)i nh(cid:1267)ng thi(cid:1219)u sót. Em kính mong nh(cid:1201)n (cid:255)(cid:1133)(cid:1255)c s(cid:1269)
(cid:70)(cid:1191)m thông và t(cid:1201)n tình ch(cid:1229) b(cid:1191)o c(cid:1259)a quý Th(cid:1195)y Cô và các b(cid:1189)n.
TP. H(cid:1239) Chí Minh, tháng 7 n(cid:259)m 2005
2
Phan Qu(cid:1237)c Lân – 0112267
NH(cid:1200)N XÉT C(cid:1258)A GIÁO VIÊN H(cid:1132)(cid:1246)NG D(cid:1198)N
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
Thành ph(cid:1237) H(cid:1239) Chí Minh, tháng 07 n(cid:259)m 2005
Giáo viên h(cid:1133)(cid:1247)ng d(cid:1199)n
Th.S Ph(cid:1189)m Ph(cid:1189)m Tuy(cid:1219)t Trinh
3
NH(cid:1200)N XÉT C(cid:1258)A GIÁO VIÊN PH(cid:1190)N BI(cid:1226)N
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
Thành ph(cid:1237) H(cid:1239) Chí Minh, tháng 07 n(cid:259)m 2005
Giáo viên ph(cid:1191)n bi(cid:1227)n
TS. (cid:264)inh (cid:264)(cid:76)(cid:1221)n
4
(cid:47)(cid:1248)I NÓI (cid:264)(cid:1194)U
Ch(cid:1267) vi(cid:1219)t ti(cid:1219)ng Vi(cid:1227)t c(cid:1259)a chúng ta có 1 (cid:255)(cid:1211)c (cid:255)(cid:76)(cid:1223)m r(cid:1193)t hay là có s(cid:1269) xu(cid:1193)t hi(cid:1227)n c(cid:1259)a các
(cid:71)(cid:1193)u thanh c(cid:458)ng nh(cid:1133) d(cid:1193)u c(cid:1259)a các ký t(cid:1269). (cid:264)(cid:76)(cid:1221)u này giúp cho ti(cid:1219)ng Vi(cid:1227)t “thêm thanh, thêm
(cid:255)(cid:76)(cid:1227)u”. Tuy nhiên, c(cid:458)ng chính vi(cid:1227)c “thêm thanh, thêm (cid:255)(cid:76)(cid:1227)u” (cid:255)ó làm cho vi(cid:1227)c gõ ti(cid:1219)ng
Vi(cid:1227)t tr(cid:1251) nên t(cid:1237)n nhi(cid:1221)u th(cid:1249)i gian h(cid:1131)n. 1 v(cid:1193)n (cid:255)(cid:1221) khác, khi vi(cid:1227)c s(cid:1265) d(cid:1257)ng Internet tr(cid:1251) nên
thông d(cid:1257)ng, 1 ti(cid:1227)n ích (cid:255)(cid:1133)(cid:1255)c m(cid:1233)i ng(cid:1133)(cid:1249)i (cid:1133)a chu(cid:1245)ng là d(cid:1231)ch v(cid:1257) Email. Nh(cid:1133)ng, cho (cid:255)(cid:1219)n
hi(cid:1227)n nay, h(cid:1195)u h(cid:1219)t các mail server v(cid:1199)n ch(cid:1133)a h(cid:1243) tr(cid:1255) t(cid:1237)t ti(cid:1219)ng Vi(cid:1227)t, do (cid:255)ó, tình tr(cid:1189)ng các lá
mail trên m(cid:1189)ng h(cid:1195)u nh(cid:1133) không có d(cid:1193)u. Vi(cid:1227)c phát tri(cid:1223)n 1 công c(cid:1257) giúp thêm d(cid:1193)u ti(cid:1219)ng
Vi(cid:1227)t vào v(cid:259)n b(cid:1191)n không d(cid:1193)u là vi(cid:1227)c r(cid:1193)t c(cid:1195)n thi(cid:1219)t và thú v(cid:1231).
(cid:264)(cid:1221) tài này h(cid:1133)(cid:1247)ng (cid:255)(cid:1219)n vi(cid:1227)c gi(cid:1191)i quy(cid:1219)t bài toán thêm d(cid:1193)u ti(cid:1219)ng Vi(cid:1227)t theo m(cid:1245)t
(cid:75)(cid:1133)(cid:1247)ng m(cid:1247)i, do (cid:255)ó, ch(cid:1133)(cid:1131)ng trình không chú tr(cid:1233)ng chuyên sâu vào l(cid:429)nh v(cid:1269)c nào. Vi(cid:1227)c
thêm ch(cid:1261)c n(cid:259)ng h(cid:1243) tr(cid:1255) các l(cid:429)nh v(cid:1269)c chuyên sâu khác không (cid:1191)nh h(cid:1133)(cid:1251)ng nhi(cid:1221)u (cid:255)(cid:1219)n c(cid:1193)u
trúc c(cid:1259)a mô hình mà ch(cid:1133)(cid:1131)ng trình áp d(cid:1257)ng.
Lu(cid:1201)n v(cid:259)n (cid:255)(cid:1133)(cid:1255)c t(cid:1241) ch(cid:1261)c thành 5 ch(cid:1133)(cid:1131)ng v(cid:1247)i n(cid:1245)i dung nh(cid:1133) sau :
§ Ch(cid:1133)(cid:1131)ng 1 gi(cid:1247)i thi(cid:1227)u t(cid:1241)ng quan v(cid:1221) bài toán Thêm d(cid:1193)u ti(cid:1219)ng Vi(cid:1227)t vào v(cid:259)n b(cid:1191)n
không d(cid:1193)u, và các công trình (cid:255)ã có liên quan (cid:255)(cid:1219)n (cid:255)(cid:1221) tài.
§ Ch(cid:1133)(cid:1131)ng 2 gi(cid:1247)i thi(cid:1227)u các c(cid:1131) s(cid:1251) lý thuy(cid:1219)t _ tin h(cid:1233)c c(cid:1195)n s(cid:1265) d(cid:1257)ng.
§ Ch(cid:1133)(cid:1131)ng 3 nh(cid:1201)n xét các mô hình (cid:255)ã có tr(cid:1133)(cid:1247)c (cid:255)ây, và (cid:255)(cid:1133)a ra mô hình cài (cid:255)(cid:1211)t
chính.
§ Ch(cid:1133)(cid:1131)ng 4 c(cid:1257) th(cid:1223) hóa mô hình cài (cid:255)(cid:1211)t.
§ Ch(cid:1133)(cid:1131)ng 5 t(cid:1241)ng k(cid:1219)t và (cid:255)(cid:1221) ra h(cid:1133)(cid:1247)ng phát tri(cid:1223)n .
(cid:48)(cid:1256)C L(cid:1256)C
1.1.1. 1.1.2. 1.1.3.
1.2.1. 1.2.2. 1.2.3. 1.2.4.
2.1.1.
2.1.1.1. 2.1.1.2. 2.1.1.3.
2.1.2.
2.1.2.1. 2.1.2.2.
2.3.1.
2.3.1.1. 2.3.1.2.
3.1.1.
Ch(cid:1133)(cid:1131)ng 1.(cid:55)(cid:1240)NG QUAN....................................................................9 1.1. Gi(cid:1247)i thi(cid:1227)u v(cid:1221) bài toán Thêm d(cid:1193)u ti(cid:1219)ng Vi(cid:1227)t vào v(cid:259)n b(cid:1191)n không d(cid:1193)u.......10 Phát bi(cid:1223)u bài toán.........................................................................................10 (cid:264)(cid:1211)c (cid:255)(cid:76)(cid:1223)m .......................................................................................................10 (cid:43)(cid:1133)(cid:1247)ng gi(cid:1191)i quy(cid:1219)t ..........................................................................................11 1.2. Gi(cid:1247)i thi(cid:1227)u các công trình (cid:255)ã có ..................................................................11 AMPad..........................................................................................................11 VietPad .........................................................................................................12 www.EasyVn.com.........................................................................................13 VnMark ........................................................................................................14 Ch(cid:1133)(cid:1131)ng 2.(cid:38)(cid:1130) S(cid:1250) LÝ THUY(cid:1218)T TIN H(cid:1232)C....................................15 2.1. Lý thuy(cid:1219)t v(cid:1221) ngôn ng(cid:1267) h(cid:1233)c.........................................................................16 Âm ti(cid:1219)t (còn g(cid:1233)i là “ti(cid:1219)ng”) ..........................................................................16 (cid:264)(cid:1231)nh ngh(cid:429)a và (cid:255)(cid:1211)c (cid:255)(cid:76)(cid:1223)m âm ti(cid:1219)t ti(cid:1219)ng Vi(cid:1227)t ..............................................16 Thanh là thành ph(cid:1195)n c(cid:1259)a âm ti(cid:1219)t ti(cid:1219)ng Vi(cid:1227)t .............................................16 T(cid:1189)i sao l(cid:1189)i ph(cid:1191)i dùng d(cid:1193)u thanh ? ............................................................17 (cid:55)(cid:1263)..................................................................................................................18 Các quan ni(cid:1227)m v(cid:1221) t(cid:1263) ...............................................................................18 Tiêu chí nh(cid:1201)n di(cid:1227)n “t(cid:1263)” ti(cid:1219)ng Vi(cid:1227)t...........................................................18 2.1.2.2.1. Các tiêu chu(cid:1197)n v(cid:1221) hình th(cid:1261)c .................................................................19 2.1.2.2.2. Các tiêu chu(cid:1197)n v(cid:1221) n(cid:1245)i dung ..................................................................19 2.2. Tách t(cid:1263)........................................................................................................20 Kh(cid:1247)p t(cid:1237)i (cid:255)a (LRMM – Left Right Max Matching).....................................21 2.2.1. 2.2.2. Mô hình m(cid:1189)ng WFST và m(cid:1189)ng n(cid:1131)-ron .......................................................22 2.3. Tách câu......................................................................................................22 Tách câu b(cid:1205)ng Heristics. ..............................................................................23 X(cid:1265) lý d(cid:1193)u ch(cid:1193)m. .....................................................................................23 X(cid:1265) lý d(cid:1193)u ch(cid:1193)m trong ngo(cid:1211)c. ..................................................................24 Ch(cid:1133)(cid:1131)ng 3.MÔ HÌNH CÀI (cid:264)(cid:1210)T ......................................................25 3.1. Các mô hình thêm d(cid:1193)u (cid:255)ã (cid:255)(cid:1133)(cid:1255)c s(cid:1265) d(cid:1257)ng...................................................26 VietPad .........................................................................................................26 3.1.1.1. Mô hình thêm d(cid:1193)u ti(cid:1219)ng Vi(cid:1227)t ..................................................................26 3.1.1.1.1. Ti(cid:1221)n x(cid:1265) lý ............................................................................................26 3.1.1.1.2. Tách token...........................................................................................27 3.1.1.1.3. L(cid:1193)y ra các t(cid:1263) không d(cid:1193)u, chuy(cid:1223)n thành t(cid:1263) có d(cid:1193)u .................................27 VnMark ........................................................................................................28
3.1.2.
6
3.2.1.1. 3.2.1.2. 3.2.1.3.
3.2.2.1.
3.2.2.2.
3.2.3.
4.1.1. 4.1.2. 4.1.3.
4.3.1. 4.3.2.
4.4.1. 4.4.2.
3.1.2.1. Mô hình thêm d(cid:1193)u ti(cid:1219)ng Vi(cid:1227)t ..................................................................28 3.1.2.1.1. Ti(cid:1221)n x(cid:1265) lý ............................................................................................30 3.1.2.1.2. Tách câu ..............................................................................................30 3.1.2.1.3. Tìm các kh(cid:1191) n(cid:259)ng (cid:255)ánh d(cid:1193)u c(cid:1259)a t(cid:1263), câu ................................................30 3.1.2.2. Mô hình hu(cid:1193)n luy(cid:1227)n................................................................................31 3.2. Mô hình (cid:255)(cid:1221) xu(cid:1193)t..........................................................................................32 3.2.1. Mô hình.........................................................................................................32 Tách câu .................................................................................................33 Tách t(cid:1263) b(cid:1205)ng ph(cid:1133)(cid:1131)ng pháp LRMM.........................................................34 Ch(cid:1233)n t(cid:1263) thích h(cid:1255)p ...................................................................................34 3.2.2. Mô hình hu(cid:1193)n luy(cid:1227)n .....................................................................................36 Th(cid:1237)ng kê t(cid:1195)n su(cid:1193)t xu(cid:1193)t hi(cid:1227)n c(cid:1259)a t(cid:1263)..........................................................36 3.2.2.1.1. Xây d(cid:1269)ng kho ng(cid:1267) li(cid:1227)u.........................................................................36 3.2.2.1.2. Th(cid:1237)ng kê t(cid:1195)n su(cid:1193)t xu(cid:1193)t hi(cid:1227)n c(cid:1259)a t(cid:1263) .......................................................37 3.2.2.1.3. T(cid:1189)o t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n chuy(cid:1223)n (cid:255)(cid:1241)i ........................................................................38 Trích xu(cid:1193)t các c(cid:1257)m t(cid:1263) th(cid:1133)(cid:1249)ng s(cid:1265) d(cid:1257)ng ....................................................39 So sánh mô hình này v(cid:1247)i 2 mô hình trên .....................................................41 Ch(cid:1133)(cid:1131)ng 4.CÀI (cid:264)(cid:1210)T TH(cid:1264) NGHI(cid:1226)M.............................................43 4.1. Th(cid:1237)ng kê t(cid:1195)n s(cid:1237) xu(cid:1193)t hi(cid:1227)n c(cid:1259)a t(cid:1263)...............................................................44 Xây d(cid:1269)ng kho ng(cid:1267) li(cid:1227)u text t(cid:1263) báo (cid:255)(cid:76)(cid:1227)n t(cid:1265)..................................................44 Tách câu........................................................................................................48 Tách t(cid:1263) và th(cid:1237)ng kê......................................................................................50 4.2. (cid:55)(cid:1189)o t(cid:1201)p tin t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n chính............................................................................52 4.3. (cid:55)(cid:1189)o t(cid:1201)p tin t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n c(cid:1257)m t(cid:1263) .........................................................................55 (cid:55)(cid:1189)o kho d(cid:1267) li(cid:1227)u tinh gi(cid:1191)n m(cid:1247)i......................................................................55 (cid:55)(cid:1189)o t(cid:1201)p tin t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n c(cid:1257)m t(cid:1263) ...........................................................................58 4.4. Ch(cid:1133)(cid:1131)ng trình chính....................................................................................58 Ch(cid:1133)(cid:1131)ng trình VietEditor..............................................................................59 Ch(cid:1133)(cid:1131)ng trình thêm d(cid:1193)u qua Clipboard.......................................................60 4.5. Th(cid:1265) nghi(cid:1227)m ................................................................................................62 Ch(cid:1133)(cid:1131)ng 5.(cid:46)(cid:1218)T QU(cid:1190), H(cid:1132)(cid:1246)NG PHÁT TRI(cid:1222)N .............................63 5.1. (cid:43)(cid:1189)n ch(cid:1219) và h(cid:1133)(cid:1247)ng phát tri(cid:1223)n .....................................................................64 5.2. (cid:46)(cid:1219)t lu(cid:1201)n ......................................................................................................64 Ph(cid:1257) l(cid:1257)c : C(cid:1193)u trúc kho ng(cid:1267) li(cid:1227)u ......................................................67
7
DANH M(cid:1256)C HÌNH
Hình 1.2.1-1 : Thêm d(cid:813)u ti(cid:839)ng Vi(cid:847)t t(cid:889)(cid:3)(cid:255)(cid:865)ng b(cid:825)ng AMPad......................................................12 Hình 1.2.2-2 : Gõ ti(cid:839)ng Vi(cid:847)t không d(cid:813)u trên VietPad.............................................................12 Hình 1.2.2-3 : V(cid:259)n b(cid:811)n sau khi th(cid:889)c hi(cid:847)n ch(cid:881)c n(cid:259)ng thêm d(cid:813)u ti(cid:839)ng Vi(cid:847)t c(cid:879)a VietPad...........13 Hình 1.2.3-4 : Gõ ti(cid:839)ng Vi(cid:847)t không d(cid:813)u trên EasyVn..............................................................14 Hình 1.2.3-5 : V(cid:259)n b(cid:811)n sau khi t(cid:889)(cid:3)(cid:255)(cid:865)ng thêm d(cid:813)u trên EasyVn ..............................................14 Hình 1.2.4-6 : S(cid:751)(cid:3)(cid:255)(cid:859) k(cid:839)t c(cid:813)u âm ti(cid:839)ng Vi(cid:847)t.............................................................................17 Hình 3.1.1-7 : L(cid:753)u (cid:255)(cid:859) th(cid:889)c hi(cid:847)n c(cid:879)a mô hình (cid:881)ng d(cid:877)ng trong VietPad...................................26 Hình 3.1.2-8 : L(cid:753)u (cid:255)(cid:859) th(cid:889)c hi(cid:847)n c(cid:879)a mô hình n-gram ............................................................29 Hình 3.2-9: L(cid:753)u (cid:255)(cid:859) th(cid:889)c hi(cid:847)n c(cid:879)a mô hình (cid:255)(cid:841) xu(cid:813)t ................................................................33 Hình 3.2-10 : T(cid:821)p tin m(cid:819)u sau khi th(cid:857)ng kê t(cid:815)n su(cid:813)t t(cid:883)..........................................................38 Hình 3.2-11 : Trích t(cid:821)p tin TuDienChinh.txt ..........................................................................39 Hình 3.2-12 : Trích t(cid:821)p tin CumTu.txt....................................................................................41 Hình 4.1.1-13: Giao di(cid:847)n ch(cid:753)(cid:751)ng trình HTML2TXT ..............................................................44 Hình 4.1.1-14: C(cid:813)u hình c(cid:879)a ch(cid:753)(cid:751)ng trình HTML2TXT.........................................................45 Hình 4.1.1-15 : M(cid:865)t trang báo thanh niên..............................................................................47 Hình 4.1.1-16 : (cid:39)(cid:887) li(cid:847)u (cid:255)(cid:753)(cid:875)c tách t(cid:883) trang báo Thanh niên...................................................48 Hình 4.1.2-17: Giao di(cid:847)n ch(cid:753)(cid:751)ng trình Tách Câu..................................................................49 Hình 4.1.2-18: T(cid:883) vi(cid:839)t t(cid:823)t cung c(cid:813)p cho ch(cid:753)(cid:751)ng trình Tách Câu............................................49 Hình 4.1.2-19: N(cid:865)i dung file k(cid:839)t xu(cid:813)t c(cid:879)a ch(cid:753)(cid:751)ng trình Tách Câu .........................................50 Hình 4.1.3-20: Giao di(cid:847)n module tách t(cid:883)...............................................................................51 Hình4.1.3-21: N(cid:865)i dung t(cid:821)p tin th(cid:753) m(cid:877)c ngu(cid:859)n......................................................................51 Hình 4.1.3-22: N(cid:865)i dung t(cid:821)p tin t(cid:883)(cid:3)(cid:255)(cid:76)(cid:843)n .................................................................................52 Hình 4.1.3-23: N(cid:865)i dung t(cid:821)p tin k(cid:839)t qu(cid:811).................................................................................52 Hình 4.1.3-24: Giao di(cid:847)n ch(cid:753)(cid:751)ng trình t(cid:809)o t(cid:883)(cid:3)(cid:255)(cid:76)(cid:843)n chính.......................................................53 Hình 4.1.3-25 : Trích 1 ph(cid:815)n TuDienChinh.txt.......................................................................54 Hình 4.1.3-26 : Trích 1 ph(cid:815)n TuDienPhanLop.txt.................................................................54 Hình 4.1.3-27: Trích 1 ph(cid:815)n KhoCau.txt................................................................................55 Hình 4.3.1-28: Giao di(cid:847)n ch(cid:753)(cid:751)ng trình t(cid:809)o kho d(cid:887) li(cid:847)u tinh gi(cid:811)n...........................................56 Hình 4.3.1-29 : Trích 1 ph(cid:815)n th(cid:753) m(cid:877)c k(cid:839)t xu(cid:813)t .......................................................................57 Hình 4.3.1-30 : Th(cid:753) m(cid:877)c con _a trong th(cid:753) m(cid:877)c k(cid:839)t xu(cid:813)t.........................................................57 Hình 4.3.2-31: Giao di(cid:847)n ch(cid:753)(cid:751)ng trình t(cid:809)o t(cid:821)p tin c(cid:877)m t(cid:883) .....................................................58 Hình 4.4.1-32: Giao di(cid:847)n ch(cid:753)(cid:751)ng trình chính VietEditor .......................................................59 Hình 4.4.2-33: Giao di(cid:847)n ch(cid:753)(cid:751)ng trình chính thêm d(cid:813)u Clipboard ........................................60 Hình 4.4.2-34: Test ch(cid:753)(cid:751)ng trình thêm d(cid:813)u Clipboard...........................................................61 Hình 5.2-35 : T(cid:821)p tin kho ng(cid:887) li(cid:847)u m(cid:819)u .................................................................................69
8
Ch(cid:1133)(cid:1131)ng 1. (cid:55)(cid:1240)NG QUAN
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
1.1. Gi(cid:1247)i thi(cid:1227)u v(cid:1221) bài toán Thêm d(cid:1193)u ti(cid:1219)ng Vi(cid:1227)t vào
(cid:89)(cid:259)n b(cid:1191)n không d(cid:1193)u
1.1.1.
Phát bi(cid:1223)u bài toán
Bài toán có th(cid:1223)(cid:3)(cid:255)(cid:1133)(cid:1255)c phát bi(cid:1223)u nh(cid:1133) sau : Cho m(cid:1245)t v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không
(cid:71)(cid:1193)u. Chuy(cid:1223)n v(cid:259)n b(cid:1191)n không d(cid:1193)u này thành có d(cid:1193)u v(cid:1247)i (cid:255)(cid:1245) chính xác cao.
Ch(cid:1229) s(cid:1265) d(cid:1257)ng t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n t(cid:1263) và kho ng(cid:1267) li(cid:1227)u thô làm (cid:255)(cid:1195)u vào.
Khái ni(cid:1227)m t(cid:1263)(cid:3)(cid:1251)(cid:3)(cid:255)ây là “t(cid:1263) t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n” – t(cid:1261)c là các t(cid:1263)(cid:3)(cid:255)(cid:1131)n, t(cid:1263) ghép và c(cid:1257)m t(cid:1263)
(cid:255)(cid:1133)(cid:1255)c l(cid:1133)u trong t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n.
Ch(cid:1229) x(cid:1265) lý các v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t có mã Unicode.
1.1.2. (cid:264)(cid:1211)c (cid:255)(cid:76)(cid:1223)m
Ch(cid:1267) vi(cid:1219)t ti(cid:1219)ng Vi(cid:1227)t có 1 (cid:255)(cid:1211)c (cid:255)(cid:76)(cid:1223)m r(cid:1193)t hay là s(cid:1269) xu(cid:1193)t hi(cid:1227)n c(cid:1259)a các d(cid:1193)u thanh
(cid:70)(cid:458)ng nh(cid:1133) d(cid:1193)u c(cid:1259)a các ký t(cid:1269). Vi(cid:1227)c có d(cid:1193)u thanh và d(cid:1193)u c(cid:1259)a ký t(cid:1269) này làm phong
phú thêm cho ngôn t(cid:1263) ti(cid:1219)ng Vi(cid:1227)t, và c(cid:458)ng góp ph(cid:1195)n t(cid:259)ng (cid:255)(cid:1245) bi(cid:1223)u c(cid:1191)m c(cid:1259)a ti(cid:1219)ng
Vi(cid:1227)t.
(cid:39)(cid:1193)u thanh là 1 thành ph(cid:1195)n “b(cid:1193)t kh(cid:1191) phân” trong âm ti(cid:1219)t ti(cid:1219)ng Vi(cid:1227)t [8]. Khi
lo(cid:1189)i b(cid:1235) d(cid:1193)u thanh, vi(cid:1227)c hi(cid:1223)u ngh(cid:429)a c(cid:1259)a t(cid:1263), g(cid:1239)m 1 hay nhi(cid:1221)u âm ti(cid:1219)t k(cid:1219)t h(cid:1255)p v(cid:1247)i
nhau, tr(cid:1251) nên khó kh(cid:259)n và d(cid:1225) gây hi(cid:1223)u l(cid:1195)m.
(cid:264)(cid:1223) thêm d(cid:1193)u, tr(cid:1133)(cid:1247)c tiên, ta c(cid:1195)n ph(cid:1191)i xác (cid:255)(cid:1231)nh ranh gi(cid:1247)i t(cid:1263). Bài toán xác
(cid:255)(cid:1231)nh ranh gi(cid:1247)i t(cid:1263)(cid:3)(cid:255)(cid:1237)i v(cid:1247)i v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t có d(cid:1193)u (cid:255)ã là 1 vi(cid:1227)c th(cid:1265) thách, thì khi
không có d(cid:1193)u, vi(cid:1227)c nh(cid:1201)n di(cid:1227)n ranh gi(cid:1247)i t(cid:1263) càng tr(cid:1251) nên khó kh(cid:259)n h(cid:1131)n. V(cid:1193)n (cid:255)(cid:1221)
này l(cid:1189)i càng khó kh(cid:259)n, khi ranh gi(cid:1247)i t(cid:1263) trong ti(cid:1219)ng Vi(cid:1227)t c(cid:458)ng nh(cid:1133) 1 s(cid:1237) ngôn ng(cid:1267)
Châu Á khác, m(cid:1245)t t(cid:1263) chính t(cid:1191) có th(cid:1223) không t(cid:1133)(cid:1131)ng (cid:1261)ng v(cid:1247)i m(cid:1245)t “t(cid:1263)” trên v(cid:259)n
(cid:69)(cid:1191)n. (cid:264)(cid:1237)i v(cid:1247)i các th(cid:1261) ti(cid:1219)ng Châu Âu, ta có th(cid:1223) d(cid:1225) dàng nh(cid:1201)n ra m(cid:1245)t t(cid:1263), do các t(cid:1263)
(cid:255)(cid:1133)(cid:1255)c phân cách b(cid:1251)i kho(cid:1191)ng tr(cid:1203)ng. (cid:264)(cid:76)(cid:1221)u này l(cid:1189)i không (cid:255)úng v(cid:1247)i ti(cid:1219)ng Vi(cid:1227)t.
Trong ti(cid:1219)ng Vi(cid:1227)t, các ti(cid:1219)ng _ hay còn g(cid:1233)i là âm ti(cid:1219)t _ (cid:255)(cid:1133)(cid:1255)c phân cách b(cid:1251)i
10
kho(cid:1191)ng tr(cid:1203)ng, ch(cid:1261) không ph(cid:1191)i t(cid:1263).
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
Sau khi (cid:255)ã nh(cid:1201)n di(cid:1227)n (cid:255)(cid:1133)(cid:1255)c ranh gi(cid:1247)i t(cid:1263), ta c(cid:1195)n ph(cid:1191)i xác (cid:255)(cid:1231)nh cho (cid:255)úng t(cid:1263) có
(cid:71)(cid:1193)u nào có d(cid:1189)ng th(cid:1223) hi(cid:1227)n không d(cid:1193)u nh(cid:1133) v(cid:1201)y. Vi(cid:1227)c xác (cid:255)(cid:1231)nh này c(cid:458)ng gây nhi(cid:1221)u
khó kh(cid:259)n, khi 1 t(cid:1263) không d(cid:1193)u có th(cid:1223) có nhi(cid:1221)u t(cid:1263) có d(cid:1193)u t(cid:1133)(cid:1131)ng (cid:1261)ng v(cid:1247)i nó.
Ví d(cid:877) 1-1 : T(cid:1263) không d(cid:1193)u “toi” có 3 t(cid:1263) có d(cid:1193)u t(cid:1133)(cid:1131)ng (cid:1261)ng là “tôi”, “t(cid:1247)i” và
“t(cid:1237)i”.
Do (cid:255)ó, sau khi (cid:255)ã gi(cid:1191)i quy(cid:1219)t xong bài toán tách t(cid:1263) ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u, ta
(cid:70)(cid:1195)n ph(cid:1191)i gi(cid:1191)i quy(cid:1219)t thêm bài toán xác (cid:255)(cid:1231)nh t(cid:1263) có d(cid:1193)u thích h(cid:1255)p v(cid:1247)i t(cid:1263) không d(cid:1193)u
(cid:255)ó. (cid:264)ây chính là 2 bài toán c(cid:1195)n gi(cid:1191)i quy(cid:1219)t chính c(cid:1259)a mô hình.
1.1.3. (cid:43)(cid:1133)(cid:1247)ng gi(cid:1191)i quy(cid:1219)t
(cid:264)(cid:1237)i v(cid:1247)i tách t(cid:1263) có d(cid:1193)u, có nhi(cid:1221)u mô hình (cid:255)(cid:1133)(cid:1255)c s(cid:1265) d(cid:1257)ng và (cid:255)(cid:1189)t k(cid:1219)t qu(cid:1191) cao
nh(cid:1133) MM (Maximum Matching : forward / backward hay còn g(cid:1233)i là LRMM:
Left Right); gi(cid:1191)i thu(cid:1201)t h(cid:1233)c c(cid:1191)i bi(cid:1219)n TBL; m(cid:1189)ng chuy(cid:1223)n d(cid:1231)ch tr(cid:1189)ng thái h(cid:1267)u h(cid:1189)n
có tr(cid:1233)ng s(cid:1237) WFST (Weighted finite-state Transducer); gi(cid:1191)i thu(cid:1201)t d(cid:1269)a trên nén
(compression) [1] …. H(cid:1133)(cid:1247)ng gi(cid:1191)i quy(cid:1219)t (cid:255)(cid:1133)(cid:1255)c (cid:255)(cid:1221) xu(cid:1193)t là s(cid:1265) d(cid:1257)ng ph(cid:1133)(cid:1131)ng pháp
tách t(cid:1263) LRMM [1][7] k(cid:1219)t h(cid:1255)p v(cid:1247)i mô hình Bigram (cid:255)ã gi(cid:1191)i quy(cid:1219)t khá hi(cid:1227)u qu(cid:1191) 2
(cid:89)(cid:1193)n (cid:255)(cid:1221) c(cid:1259)a bài toán này. Ph(cid:1133)(cid:1131)ng pháp ch(cid:1229) m(cid:1247)i (cid:255)(cid:1133)(cid:1255)c áp d(cid:1257)ng cho mô hình thêm
(cid:71)(cid:1193)u offine, nh(cid:1133)ng có th(cid:1223)(cid:3)(cid:255)(cid:1133)(cid:1255)c cài (cid:255)(cid:1211)t (cid:255)(cid:1223) gán d(cid:1193)u online.
1.2. Gi(cid:1247)i thi(cid:1227)u các công trình (cid:255)ã có
1.2.1. AMPad
AMPad [12] (tên version c(cid:458) và thông d(cid:1257)ng v(cid:1247)i m(cid:1233)i ng(cid:1133)(cid:1249)i là AutoMark)
(cid:70)(cid:1259)a tác gi(cid:1191) Tr(cid:1195)n Tri(cid:1219)t Tâm là s(cid:1191)n ph(cid:1197)m (cid:255)(cid:1195)u tiên nghiên c(cid:1261)u v(cid:1221) l(cid:429)nh v(cid:1269)c này.
Ch(cid:1133)(cid:1131)ng trình (cid:255)ã (cid:255)(cid:1133)(cid:1255)c nhi(cid:1221)u ng(cid:1133)(cid:1249)i bi(cid:1219)t (cid:255)(cid:1219)n và (cid:255)(cid:1133)(cid:1255)c s(cid:1265) d(cid:1257)ng r(cid:1245)ng rãi. (cid:264)(cid:76)(cid:1221)u này
cho th(cid:1193)y vi(cid:1227)c phát tri(cid:1223)n (cid:1261)ng d(cid:1257)ng hoàn thi(cid:1227)n h(cid:1131)n n(cid:1267)a v(cid:1221) thêm d(cid:1193)u ti(cid:1219)ng Vi(cid:1227)t là
11
có nhu c(cid:1195)u, và nhu c(cid:1195)u này s(cid:1217) ngày càng t(cid:259)ng cao. Ch(cid:1133)(cid:1131)ng trình AMPad có
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
(cid:255)(cid:76)(cid:1223)m hay là vi(cid:1227)c áp d(cid:1257)ng mô hình x(cid:1265) lý thêm d(cid:1193)u (cid:1251) ch(cid:1219)(cid:3)(cid:255)(cid:1245) online, t(cid:1189)o s(cid:1269) tr(cid:1269)c
quan, thân thi(cid:1227)n cho ng(cid:1133)(cid:1249)i s(cid:1265) d(cid:1257)ng.
Hình 1.2.1-1 : Thêm d(cid:813)u ti(cid:839)ng Vi(cid:847)t t(cid:889)(cid:3)(cid:255)(cid:865)ng b(cid:825)ng AMPad
1.2.2. VietPad
Vietpad [11] là trình so(cid:1189)n th(cid:1191)o h(cid:1243) tr(cid:1255) ti(cid:1219)ng Vi(cid:1227)t Unicode, (cid:255)(cid:1133)(cid:1255)c phát tri(cid:1223)n
(cid:69)(cid:1251)i Quân Nguy(cid:1225)n và nhóm phát tri(cid:1223)n trên http://vietpad.sourceforge.net. Ngoài
ch(cid:1261)c n(cid:259)ng thêm d(cid:1193)u t(cid:1269)(cid:3)(cid:255)(cid:1245)ng offline mà lu(cid:1201)n v(cid:259)n (cid:255)ang nghiên c(cid:1261)u, VietPad còn
là 1 trình so(cid:1189)n th(cid:1191)o ti(cid:1219)ng Vi(cid:1227)t h(cid:1243) tr(cid:1255) r(cid:1193)t t(cid:1237)t Unicode và là mã ngu(cid:1239)n m(cid:1251).
12
Hình 1.2.2-2 : Gõ ti(cid:839)ng Vi(cid:847)t không d(cid:813)u trên VietPad
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
Hình 1.2.2-3 : V(cid:259)n b(cid:811)n sau khi th(cid:889)c hi(cid:847)n ch(cid:881)c n(cid:259)ng thêm d(cid:813)u ti(cid:839)ng Vi(cid:847)t c(cid:879)a VietPad
1.2.3. www.EasyVn.com
Trang web www.easyvn.com [10] cung c(cid:1193)p d(cid:1231)ch v(cid:1257) email (cid:255)(cid:76)(cid:1227)n t(cid:1265) mi(cid:1225)n phí
trên m(cid:1189)ng, v(cid:1247)i s(cid:1269) h(cid:1243) tr(cid:1255) ng(cid:1133)(cid:1249)i dùng r(cid:1193)t t(cid:1237)t v(cid:1221) ngôn ng(cid:1267) Vi(cid:1227)t. 1 ch(cid:1261)c n(cid:259)ng n(cid:1241)i
(cid:69)(cid:1201)t c(cid:1259)a www.easyvn.com là : sau khi so(cid:1189)n th(cid:1191)o xong b(cid:1261)c mail, ng(cid:1133)(cid:1249)i dùng có
th(cid:1223) ch(cid:1233)n ch(cid:1261)c n(cid:259)ng Thêm d(cid:1193)u ti(cid:1219)ng Vi(cid:1227)t (cid:255)(cid:1223) bi(cid:1219)n v(cid:259)n b(cid:1191)n không d(cid:1193)u thành có
(cid:71)(cid:1193)u. Do (cid:255)ây là d(cid:1231)ch v(cid:1257)(cid:3) (cid:255)(cid:1133)(cid:1255)c cung c(cid:1193)p và thu phí trên NET (cho s(cid:1265) d(cid:1257)ng th(cid:1265)
13
trong 2 tháng), mô hình thêm d(cid:1193)u t(cid:1269)(cid:3)(cid:255)(cid:1245)ng c(cid:1259)a www.easyvn.com(cid:3)(cid:255)(cid:1133)(cid:1255)c gi(cid:1267) kín.
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
Hình 1.2.3-4 : Gõ ti(cid:839)ng Vi(cid:847)t không d(cid:813)u trên EasyVn
Hình 1.2.3-5 : V(cid:259)n b(cid:811)n sau khi t(cid:889)(cid:3)(cid:255)(cid:865)ng thêm d(cid:813)u trên EasyVn
1.2.4. VnMark
VnMark [2] (cid:255)(cid:1133)(cid:1255)c tác gi(cid:1191) Nguy(cid:1225)n V(cid:259)n Toàn phát tri(cid:1223)n. Do tác gi(cid:1191)(cid:3)(cid:255)ã làm
14
th(cid:1193)t l(cid:1189)c ch(cid:1133)(cid:1131)ng trình, do (cid:255)ó, không có hình (cid:1191)nh minh ho(cid:1189) ch(cid:1133)(cid:1131)ng trình.
Ch(cid:1133)(cid:1131)ng 2. (cid:38)(cid:1130) S(cid:1250) LÝ THUY(cid:1218)T
TIN H(cid:1232)C
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
2.1. Lý thuy(cid:1219)t v(cid:1221) ngôn ng(cid:1267) h(cid:1233)c
2.1.1. Âm ti(cid:1219)t (còn g(cid:1233)i là “ti(cid:1219)ng”)
2.1.1.1. (cid:264)(cid:1231)nh ngh(cid:429)a và (cid:255)(cid:1211)c (cid:255)(cid:76)(cid:1223)m âm ti(cid:1219)t ti(cid:1219)ng Vi(cid:1227)t
“Ti(cid:1219)ng” là “(cid:255)(cid:1131)n v(cid:1231) c(cid:1131) b(cid:1191)n” trong ti(cid:1219)ng Vi(cid:1227)t [1]. M(cid:1245)t “ti(cid:1219)ng” trong ti(cid:1219)ng
Vi(cid:1227)t (cid:255)(cid:1133)(cid:1255)c nói lên là m(cid:1245)t (cid:255)(cid:1131)n v(cid:1231) ng(cid:1267) âm, và c(cid:458)ng là m(cid:1245)t (cid:255)(cid:1131)n v(cid:1231) ng(cid:1267) pháp.
(cid:48)(cid:1245)t “ti(cid:1219)ng” là m(cid:1245)t (cid:255)(cid:1131)n v(cid:1231) phát ngôn, và là m(cid:1245)t (cid:255)(cid:1131)n v(cid:1231) c(cid:1259)a l(cid:1249)i nói (cid:255)(cid:1223) t(cid:1189)o ra
nh(cid:1267)ng k(cid:1219)t c(cid:1193)u l(cid:1249)i nói trong ho(cid:1189)t (cid:255)(cid:1245)ng nói n(cid:259)ng giao ti(cid:1219)p. (cid:264)(cid:1211)c tính này c(cid:1259)a
ti(cid:1219)ng chính là m(cid:1245)t tính cách lo(cid:1189)i hình c(cid:1259)a ti(cid:1219)ng Vi(cid:1227)t, trong (cid:255)ó m(cid:1243)i (cid:255)(cid:1131)n v(cid:1231)
phát âm trùng khít v(cid:1247)i (cid:255)(cid:1131)n v(cid:1231) ng(cid:1267) pháp (hình v(cid:1231), và t(cid:1263)). Khi xét trên bình
di(cid:1227)n ng(cid:1267) âm, ti(cid:1219)ng là m(cid:1245)t (cid:255)(cid:1131)n v(cid:1231) c(cid:1259)a ng(cid:1267) âm, t(cid:1261)c là m(cid:1245)t âm ti(cid:1219)t [9].
Vi(cid:1227)c nh(cid:1201)n di(cid:1227)n “ti(cid:1219)ng” (cid:255)(cid:1237)i v(cid:1247)i ng(cid:1133)(cid:1249)i Vi(cid:1227)t là (cid:255)(cid:76)(cid:1221)u quá d(cid:1225) dàng, t(cid:1269) nhiên
(cid:255)(cid:1237)i v(cid:1247)i m(cid:1233)i ng(cid:1133)(cid:1249)i mà không c(cid:1195)n m(cid:1245)t trình (cid:255)(cid:1245) ngôn ng(cid:1267) gì cao, vì : trong l(cid:1249)i
nói (m(cid:1211)t ng(cid:1267) âm), m(cid:1243)i “ti(cid:1219)ng” bao gi(cid:1249) c(cid:458)ng phát ra m(cid:1245)t h(cid:1131)i, nghe thành m(cid:1245)t
ti(cid:1219)ng, và có mang m(cid:1245)t thanh (cid:255)(cid:76)(cid:1227)u nh(cid:1193)t (cid:255)(cid:76)(cid:1227)u; còn trong ch(cid:1267) vi(cid:1219)t (m(cid:1211)t chính
(cid:87)(cid:1191)), m(cid:1243)i ti(cid:1219)ng bao gi(cid:1249) c(cid:458)ng (cid:255)(cid:1133)(cid:1255)c vi(cid:1219)t r(cid:1249)i thành t(cid:1263)ng ch(cid:1267) (ng(cid:259)n cách b(cid:1205)ng
kho(cid:1191)ng tr(cid:1203)ng hay các d(cid:1193)u ng(cid:1203)t). (cid:264)(cid:1131)n v(cid:1231) “ti(cid:1219)ng” (cid:255)(cid:1237)i v(cid:1247)i ng(cid:1133)(cid:1249)i Vi(cid:1227)t là m(cid:1245)t
(cid:255)(cid:1131)n v(cid:1231) t(cid:1269) nhiên, khái ni(cid:1227)m “ti(cid:1219)ng” (cid:255)ã có t(cid:1263) lâu và (cid:255)(cid:1133)(cid:1255)c ng(cid:1133)(cid:1249)i b(cid:1191)n ng(cid:1267) s(cid:1265)
(cid:71)(cid:1257)ng nó tr(cid:1133)(cid:1247)c khi hi(cid:1223)u và s(cid:1265) d(cid:1257)ng khái ni(cid:1227)m “t(cid:1263)”.
Ví d(cid:877) 2-1:
Câu “Cái bàn này hình bán nguy(cid:1227)t” có 6 ti(cid:1219)ng
2.1.1.2. Thanh là thành ph(cid:1195)n c(cid:1259)a âm ti(cid:1219)t ti(cid:1219)ng Vi(cid:1227)t
Khi phát âm ti(cid:1219)ng Vi(cid:1227)t, chúng ta phát âm t(cid:1263)ng (cid:255)(cid:1131)n v(cid:1231) l(cid:1249)i nói c(cid:1203)t r(cid:1249)i nhau,
(cid:74)(cid:1233)i là âm ti(cid:1219)t. Khi phát âm ch(cid:1201)m m(cid:1245)t âm ti(cid:1219)t, có th(cid:1223) nh(cid:1201)n th(cid:1193)y khá rõ là m(cid:1243)i
âm ti(cid:1219)t (cid:255)(cid:1221)u có th(cid:1223) k(cid:1219)t h(cid:1255)p nhi(cid:1221)u nh(cid:1193)t là ba (cid:255)(cid:1131)n v(cid:1231) phát âm : âm (cid:255)(cid:1195)u + âm
chính + âm cu(cid:1237)i. Ba thành ph(cid:1195)n trên g(cid:1239)m nh(cid:1267)ng âm v(cid:1231) xu(cid:1193)t hi(cid:1227)n t(cid:1133)(cid:1131)ng (cid:255)(cid:1237)i
16
theo th(cid:1261) t(cid:1269) tr(cid:1133)(cid:1247)c sau, nên g(cid:1233)i là nh(cid:1267)ng âm v(cid:1231) tuy(cid:1219)n tính.
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
Ngoài ra, m(cid:1243)i âm ti(cid:1219)t (cid:255)(cid:1133)(cid:1255)c (cid:255)(cid:1231)nh m(cid:1245)t b(cid:1201)c cao th(cid:1193)p, g(cid:1233)i là thanh (cid:255)(cid:76)(cid:1227)u.
Trong l(cid:1249)i nói, m(cid:1243)i âm ti(cid:1219)t ti(cid:1219)ng Vi(cid:1227)t (cid:255)(cid:1221)u mang m(cid:1245)t thanh. Thanh này xu(cid:1193)t
hi(cid:1227)n l(cid:1201)p t(cid:1261)c khi âm ti(cid:1219)t (cid:255)(cid:1133)(cid:1255)c phát ra, cho nên có th(cid:1223) nói r(cid:1205)ng thanh là m(cid:1245)t
thành ph(cid:1195)n b(cid:1193)t kh(cid:1191) phân c(cid:1259)a âm ti(cid:1219)t. Thanh là thành ph(cid:1195)n âm v(cid:1231) phi tuy(cid:1219)n
tính c(cid:1259)a m(cid:1245)t âm ti(cid:1219)t ti(cid:1219)ng Vi(cid:1227)t. Thanh là m(cid:1245)t s(cid:1203)c thái c(cid:1259)a âm thanh các âm
ti(cid:1219)t, qua (cid:255)ó khi phát âm s(cid:1217)(cid:3)(cid:255)(cid:1231)nh b(cid:1201)c cao th(cid:1193)p khác nhau c(cid:1259)a m(cid:1243)i (cid:255)(cid:1131)n v(cid:1231) c(cid:1259)a
chu(cid:1243)i l(cid:1249)i nói. Có sáu thanh làm tiêu chu(cid:1197)n (cid:255)(cid:1231)nh b(cid:1201)c cao th(cid:1193)p khác nhau,
th(cid:1133)(cid:1249)ng g(cid:1233)i là ngang, h(cid:1235)i, s(cid:1203)c, huy(cid:1221)n, ngã, n(cid:1211)ng.
Nh(cid:1133) v(cid:1201)y thì m(cid:1243)i âm ti(cid:1219)t ti(cid:1219)ng Vi(cid:1227)t (cid:255)(cid:1195)y (cid:255)(cid:1259) có t(cid:1237)i (cid:255)a b(cid:1237)n (cid:255)(cid:1131)n v(cid:1231) c(cid:1193)u thành.
(cid:55)(cid:1237)i thi(cid:1223)u thì m(cid:1243)i âm ti(cid:1219)t c(cid:458)ng ph(cid:1191)i có hai thành ph(cid:1195)n : âm chính + thanh.
Hình 1.2.4-6 : S(cid:751)(cid:3)(cid:255)(cid:859) k(cid:839)t c(cid:813)u âm ti(cid:839)ng Vi(cid:847)t
2.1.1.3. (cid:55)(cid:1189)i sao l(cid:1189)i ph(cid:1191)i dùng d(cid:1193)u thanh ?
Các ngôn ng(cid:1267) dùng b(cid:1191)ng ch(cid:1267) cái Latin không dùng thêm kí hi(cid:1227)u ch(cid:1229)
thanh, mà ch(cid:1229) ghi l(cid:1189)i các âm v(cid:1231) tuy(cid:1219)n tính b(cid:1205)ng các (cid:255)(cid:1239) v(cid:1231) là con ch(cid:1267). H(cid:1227)
th(cid:1237)ng ch(cid:1267) vi(cid:1219)t kh(cid:1237)i vuông nh(cid:1133) ch(cid:1267) Hán và ch(cid:1267) Nôm c(cid:458)ng không có kí hi(cid:1227)u
ch(cid:1229) thanh. Nh(cid:1133)ng tr(cid:1133)(cid:1249)ng h(cid:1255)p ch(cid:1267) qu(cid:1237)c ng(cid:1267) có khác. Khi dùng b(cid:1191)ng ch(cid:1267) cái
Latin, các (cid:255)(cid:1239) v(cid:1231) con ch(cid:1267) ch(cid:1133)a (cid:255)(cid:1259)(cid:3)(cid:255)(cid:1223) phân bi(cid:1227)t ý ngh(cid:429)a m(cid:1245)t t(cid:1263)(cid:3)(cid:255)(cid:1133)(cid:1255)c vi(cid:1219)t ra, vì
có (cid:255)(cid:1219)n sáu thanh ph(cid:1191)i phân bi(cid:1227)t. Ðã (cid:255)ành thanh ch(cid:1229) là y(cid:1219)u t(cid:1237) ng(cid:1267) âm không
thu(cid:1245)c v(cid:1221) thành ph(cid:1195)n âm v(cid:1231) tuy(cid:1219)n tính, nh(cid:1133)ng thanh ti(cid:1219)ng Vi(cid:1227)t không h(cid:1207)n ch(cid:1229)
là m(cid:1245)t y(cid:1219)u t(cid:1237) ngôn (cid:255)(cid:76)(cid:1227)u mang tính cách hoa m(cid:429) cho âm ti(cid:1219)t, mà là m(cid:1245)t thành
ph(cid:1195)n không th(cid:1223) thi(cid:1219)u (cid:255)(cid:1133)(cid:1255)c khi phát âm m(cid:1245)t âm ti(cid:1219)t. Nói cách khác, âm ti(cid:1219)t
ti(cid:1219)ng Vi(cid:1227)t ch(cid:1133)a hoàn ch(cid:1229)nh khi ch(cid:1133)a (cid:255)(cid:1133)(cid:1255)c (cid:255)(cid:1231)nh thanh. Có l(cid:1217) các nhà sáng ch(cid:1219)
17
ra ch(cid:1267) vi(cid:1219)t theo b(cid:1191)ng ch(cid:1267) cái Latin mà ta th(cid:1133)(cid:1249)ng g(cid:1233)i quen là "ch(cid:1267) qu(cid:1237)c ng(cid:1267)"
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
(cid:255)ã hi(cid:1223)u r(cid:1193)t rõ tính cách b(cid:1193)t kh(cid:1191) phân c(cid:1259)a thanh (cid:255)(cid:1237)i v(cid:1247)i âm ti(cid:1219)t ti(cid:1219)ng Vi(cid:1227)t, cho
nên các v(cid:1231)(cid:3)(cid:255)ã dùng (cid:255)(cid:1219)n nh(cid:1267)ng kí hi(cid:1227)u (cid:255)(cid:1223) ch(cid:1229) th(cid:1231) các b(cid:1201)c thanh t(cid:1133)(cid:1131)ng (cid:1261)ng. Và
(cid:255)ây c(cid:458)ng là (cid:255)(cid:1211)c (cid:255)(cid:76)(cid:1223)m n(cid:1241)i b(cid:1201)t c(cid:1259)a ti(cid:1219)ng Vi(cid:1227)t.
2.1.2. (cid:55)(cid:1263)
2.1.2.1. Các quan ni(cid:1227)m v(cid:1221) t(cid:1263)
Có 1 s(cid:1237)(cid:3)(cid:255)(cid:1231)nh ngh(cid:429)a (cid:255)(cid:76)(cid:1223)n hình v(cid:1221) t(cid:1263) nh(cid:1133) sau [1] :
- Theo L.Bloomfield, thì t(cid:1263) là (cid:179)(cid:80)(cid:865)t hình thái t(cid:889) do nh(cid:855) nh(cid:813)(cid:87)(cid:180).
- Theo Solncev thì (cid:179)(cid:55)(cid:883) là (cid:255)(cid:751)n v(cid:851) ngôn ng(cid:887) có tính hai m(cid:831)t: âm và ngh(cid:429)a.
(cid:55)(cid:883) có kh(cid:811) n(cid:259)ng (cid:255)(cid:865)c l(cid:821)p v(cid:841) cú pháp khi s(cid:885) d(cid:877)ng trong l(cid:869)(cid:76)(cid:180).
- Theo B.Golovin, thì t(cid:1263) là (cid:179)(cid:255)(cid:751)n v(cid:851) nh(cid:855) nh(cid:813)t có ngh(cid:429)a c(cid:879)a ngôn ng(cid:887), (cid:255)(cid:753)(cid:875)c
(cid:89)(cid:821)n d(cid:877)ng (cid:255)(cid:865)c l(cid:821)p, tái hi(cid:847)n t(cid:889) do trong l(cid:869)i nói (cid:255)(cid:843) xây d(cid:889)ng nên câu(cid:180). (cid:264)ây
(cid:70)(cid:458)ng chính là (cid:255)(cid:1231)nh ngh(cid:429)a mà trong ngôn ng(cid:1267) h(cid:1233)c (cid:255)(cid:1189)i c(cid:1133)(cid:1131)ng hay s(cid:1265) d(cid:1257)ng.
Trong n(cid:1245)i dung lu(cid:1201)n v(cid:259)n này, ta quan tâm t(cid:1247)i 3 thu(cid:1201)t ng(cid:1267) trong ngôn ng(cid:1267)
(cid:255)(cid:1189)i c(cid:1133)(cid:1131)ng (cid:255)(cid:1223) nh(cid:1201)n di(cid:1227)n t(cid:1263) :
1. (cid:55)(cid:883) ng(cid:887) âm : (cid:255)ó là nh(cid:1267)ng (cid:255)(cid:1131)n v(cid:1231)(cid:3)(cid:255)(cid:1133)(cid:1255)c th(cid:1237)ng nh(cid:1193)t v(cid:1247)i hi(cid:1227)n t(cid:1133)(cid:1255)ng
ng(cid:1267) âm nào (cid:255)ó. (cid:264)(cid:1237)i v(cid:1247)i ti(cid:1219)ng Vi(cid:1227)t, (cid:255)ó chính là nh(cid:1267)ng âm ti(cid:1219)t, hay
còn g(cid:1233)i là “ti(cid:1219)ng”, “ti(cid:1219)ng m(cid:1245)t”.
2. (cid:55)(cid:883) chính t(cid:811) : (cid:255)ó là nh(cid:1267)ng kho(cid:1191)ng cách gi(cid:1267)a 2 ch(cid:1243) trên v(cid:259)n t(cid:1269), t(cid:1261)c là
nh(cid:1267)ng (cid:255)(cid:1131)n v(cid:1231)(cid:3)(cid:255)(cid:1133)(cid:1255)c vi(cid:1219)t li(cid:1221)n thành kh(cid:1237)i, (cid:255)(cid:1237)i v(cid:1247)i ti(cid:1219)ng Vi(cid:1227)t, (cid:255)ó chính
là “ch(cid:1267)”
3. (cid:55)(cid:883) t(cid:883)(cid:3)(cid:255)(cid:76)(cid:843)n h(cid:853)c : (cid:255)ó là (cid:255)(cid:1131)n v(cid:1231) mà c(cid:259)n c(cid:1261) vào (cid:255)(cid:1211)c (cid:255)(cid:76)(cid:1223)m ý ngh(cid:429)a c(cid:1259)a
nó ph(cid:1191)i x(cid:1219)p riêng trong t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n.
2.1.2.2. Tiêu chí nh(cid:1201)n di(cid:1227)n “t(cid:1263)” ti(cid:1219)ng Vi(cid:1227)t
(cid:55)(cid:1263) r(cid:1193)t nhi(cid:1221)u quan ni(cid:1227)m c(cid:458)ng nh(cid:1133) các (cid:255)(cid:1231)nh ngh(cid:429)a v(cid:1221) “t(cid:1263) ti(cid:1219)ng Vi(cid:1227)t”, ta có
18
th(cid:1223) rút ra tiêu chu(cid:1197)n mà các nhà Vi(cid:1227)t ng(cid:1267) h(cid:1233)c (cid:255)ã d(cid:1269)a vào (cid:255)ó khi nh(cid:1201)n di(cid:1227)n t(cid:1263)
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
ti(cid:1219)ng Vi(cid:1227)t [3]. Các tiêu chu(cid:1197)n này chung qui ta có th(cid:1223) phân thành : các tiêu
chu(cid:1197)n v(cid:1221) hình th(cid:1261)c và các tiêu chu(cid:1197)n v(cid:1221) n(cid:1245)i dung.
2.1.2.2.1. Các tiêu chu(cid:1197)n v(cid:1221) hình th(cid:1261)c
Tính c(cid:857)(cid:3)(cid:255)(cid:851)nh : tính v(cid:1267)ng ch(cid:1203)c v(cid:1221) c(cid:1193)u t(cid:1189)o, không th(cid:1223) chêm – xen (cid:255)(cid:1133)(cid:1255)c
Tính (cid:255)(cid:1245)c l(cid:1201)p : các nhà Vi(cid:1227)t ng(cid:1267) h(cid:1233)c hay dùng tiêu chu(cid:1197)n tính (cid:255)(cid:1245)c l(cid:1201)p (cid:255)(cid:1223)
phân bi(cid:1227)t t(cid:1263) ((cid:255)(cid:1131)n v(cid:1231) có ngh(cid:429)a và (cid:255)(cid:1245)c l(cid:1201)p) v(cid:1247)i hình v(cid:1231) ((cid:255)(cid:1131)n v(cid:1231) có ngh(cid:429)a và
không (cid:255)(cid:1245)c l(cid:1201)p). Tính (cid:255)(cid:1245)c l(cid:1201)p còn (cid:255)(cid:1133)(cid:1255)c g(cid:1233)i là kh(cid:1191) n(cid:259)ng k(cid:1219)t h(cid:1255)p (t(cid:1269) do – h(cid:1189)n
ch(cid:1219))
Tính t(cid:883) lo(cid:809)i và quan h(cid:847) cú pháp : trong ng(cid:1267)/câu, t(cid:1263)(cid:3) (cid:255)(cid:1191)m nh(cid:1201)n nh(cid:1267)ng
ch(cid:1261)c n(cid:259)ng cú pháp nh(cid:1193)t (cid:255)(cid:1231)nh, nên m(cid:1233)i t(cid:1263)(cid:3)(cid:255)(cid:1221)u ph(cid:1191)i mang m(cid:1245)t t(cid:1263) lo(cid:1189)i nào (cid:255)ó,
còn hình v(cid:1231) thì không có tính ch(cid:1193)t t(cid:1263) lo(cid:1189)i. Quan h(cid:1227) gi(cid:1267)a các t(cid:1263) là quan h(cid:1227) cú
pháp, còn quan h(cid:1227) gi(cid:1267)a các hình v(cid:1231) c(cid:1259)a t(cid:1263) không ph(cid:1191)i là quan h(cid:1227) cú pháp.
2.1.2.2.2. Các tiêu chu(cid:1197)n v(cid:1221) n(cid:1245)i dung
Ch(cid:881)c n(cid:259)ng (cid:255)(cid:851)nh danh : ch(cid:1261)c n(cid:259)ng này (cid:255)(cid:1133)(cid:1255)c dùng (cid:255)(cid:1223) xác (cid:255)(cid:1231)nh t(cid:1133) cách c(cid:1259)a
(cid:87)(cid:1263) (t(cid:1263) th(cid:1269)c), coi (cid:255)ó là (cid:255)(cid:1211)c tr(cid:1133)ng phân bi(cid:1227)t gi(cid:1267)a “t(cid:1263)” v(cid:1247)i “hình v(cid:1231)”
Bi(cid:843)u th(cid:851) khái ni(cid:847)m : vì t(cid:1263) v(cid:1247)i khái ni(cid:1227)m không ph(cid:1191)i là m(cid:1245)t: có nh(cid:1267)ng khái
ni(cid:1227)m c(cid:1195)n bi(cid:1223)u th(cid:1231) b(cid:1205)ng nhi(cid:1221)u t(cid:1263), và có nh(cid:1267)ng t(cid:1263) không bi(cid:1223)u th(cid:1231) khái ni(cid:1227)m.
Ý ngh(cid:429)a bi(cid:843)u ni(cid:847)m : vì ý ngh(cid:429)a c(cid:1259)a t(cid:1263) và khái ni(cid:1227)m không trùng nhau, vì
(cid:89)(cid:1201)y, ng(cid:1133)(cid:1249)i ta c(cid:1195)n phân bi(cid:1227)t ý ngh(cid:429)a t(cid:1263) v(cid:1269)ng và ý ngh(cid:429)a ng(cid:1267) pháp.
Hoàn ch(cid:849)nh v(cid:841) ngh(cid:429)a : (cid:255)ây là tiêu chu(cid:1197)n quan tr(cid:1233)ng, (cid:255)(cid:1133)(cid:1255)c (cid:255)a s(cid:1237) các nhà
Vi(cid:1227)t ng(cid:1267) h(cid:1233)c ch(cid:1193)p nh(cid:1201)n trong vi(cid:1227)c xác (cid:255)(cid:1231)nh t(cid:1133) cách c(cid:1259)a t(cid:1263). Tiêu chu(cid:1197)n này
19
liên quan (cid:255)(cid:1219)n tính thành ng(cid:1267) và tính võ (cid:255)oán.
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
2.2. Tách t(cid:1263)
Bài toán tách t(cid:1263) cho ngôn ng(cid:1267)(cid:3)(cid:255)(cid:1131)n l(cid:1201)p (cid:255)ã (cid:255)(cid:1133)(cid:1255)c (cid:255)(cid:1211)t ra t(cid:1263) lâu, ch(cid:1259) y(cid:1219)u (cid:255)(cid:1223) gi(cid:1191)i quy(cid:1219)t
cho ti(cid:1219)ng Trung Qu(cid:1237)c, ti(cid:1219)ng Nh(cid:1201)t. Các thu(cid:1201)t toán tách t(cid:1263) có th(cid:1223)(cid:3) (cid:255)(cid:1133)(cid:1255)c phân lo(cid:1189)i nh(cid:1133)
sau:
v (cid:39)(cid:1269)a theo lu(cid:1201)t. Bao g(cid:1239)m các cách sau:
- Longest Matching, Greedy Matching Models (Yuen Poowarawan), 1986; Sampan
Rarurom, 1991).
- Mô hình kh(cid:1247)p t(cid:1237)i (cid:255)a. Mô hình này (cid:255)(cid:1133)(cid:1255)c chia thành “Kh(cid:1247)p t(cid:1237)i (cid:255)a ti(cid:1219)n và kh(cid:1247)p t(cid:1237)i
(cid:255)a lùi”. (cid:264)(cid:1237)i v(cid:1247)i ph(cid:1133)(cid:1131)ng pháp này thì m(cid:1245)t t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n hoàn ch(cid:1229)nh là không th(cid:1223) thi(cid:1219)u.
(cid:48)(cid:1245)t t(cid:1263)(cid:3) (cid:255)(cid:76)(cid:1223)n không hoàn ch(cid:1229)nh s(cid:1217) gi(cid:1191)m hi(cid:1227)u su(cid:1193)t c(cid:1259)a thu(cid:1201)t toán. Tuy nhiên, d(cid:1225)
th(cid:1193)y là khó có th(cid:1223) có m(cid:1245)t t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n hoàn ch(cid:1229)nh ((cid:255)(cid:1211)c bi(cid:1227)t khi các ngôn ng(cid:1267) v(cid:1199)n còn
(cid:255)(cid:1133)(cid:1255)c ti(cid:1219)p t(cid:1257)c phát tri(cid:1223)n h(cid:1205)ng ngày trong th(cid:1249)i (cid:255)(cid:1189)i ngày nay). Mô hình này tu(cid:484)
thu(cid:1245)c nhi(cid:1221)u vào t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n.
v Dùng th(cid:1237)ng kê:
Gi(cid:1191)i pháp này d(cid:1269)a vào ng(cid:1267) c(cid:1191)nh t(cid:1263) xung quanh (cid:255)(cid:1223)(cid:3)(cid:255)(cid:1133)a ra quy(cid:1219)t (cid:255)(cid:1231)nh thích h(cid:1255)p.
Có hai v(cid:1193)n (cid:255)(cid:1221) c(cid:1195)n (cid:255)(cid:1133)(cid:1255)c gi(cid:1191)i quy(cid:1219)t (cid:255)(cid:1237)i v(cid:1247)i gi(cid:1191)i pháp này : (cid:255)(cid:1245) r(cid:1245)ng ng(cid:1267) c(cid:1191)nh, và cách áp
(cid:71)(cid:1257)ng th(cid:1237)ng kê. Ng(cid:1267) c(cid:1191)nh càng r(cid:1245)ng thì thu(cid:1201)t toán càng ph(cid:1261)c t(cid:1189)p.
Cho dù (cid:255)(cid:1245) r(cid:1245)ng ng(cid:1267) c(cid:1191)nh th(cid:1219) nào, luôn có th(cid:1223) áp d(cid:1257)ng mô hình first-order HMM.
Tuy nhiên gi(cid:1191)i pháp này ph(cid:1257) thu(cid:1245)c r(cid:1193)t nhi(cid:1221)u vào ng(cid:1267) li(cid:1227)u hu(cid:1193)n lu(cid:1271)(cid:1227)n. K(cid:1219)t qu(cid:1191) hu(cid:1193)n
luy(cid:1227)n trên ng(cid:1267) li(cid:1227)u chính tr(cid:1231) khó có th(cid:1223) áp d(cid:1257)ng trên các tài li(cid:1227)u v(cid:259)n h(cid:1233)c và ng(cid:1133)(cid:1255)c l(cid:1189)i.
Thêm vào (cid:255)ó, có nh(cid:1267)ng t(cid:1263) có xác su(cid:1193)t r(cid:1193)t cao, nhung ch(cid:1229) có th(cid:1223) ch(cid:1261)c n(cid:259)ng v(cid:1221) m(cid:1211)t ng(cid:1267)
pháp, làm gi(cid:1191)m vai trò c(cid:1259)a xác su(cid:1193)t.
v Cách khác:
(cid:43)(cid:1195)u h(cid:1219)t các gi(cid:1191)i pháp khác là s(cid:1269) lai t(cid:1189)o gi(cid:1267)a các mô hình trên và các mô hình
ngôn ng(cid:1267) h(cid:1233)c nh(cid:1133) WFST, TBL. Th(cid:1249)i gian x(cid:1265) lý các gi(cid:1191)i pháp này tr(cid:1251) nên (cid:255)áng k(cid:1223),
20
nh(cid:1133)ng (cid:255)(cid:1245) chính xác (cid:255)(cid:1189)t (cid:255)(cid:1133)(cid:1255)c khá cao.
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
Tri th(cid:1261)c v(cid:1221) ngôn ng(cid:1267), th(cid:1133)(cid:1249)ng áp d(cid:1257)ng cho các mô hình d(cid:1269)a trên lu(cid:1201)t, hi(cid:1219)m khi
(cid:255)(cid:1133)(cid:1255)c áp d(cid:1257)ng cho nh(cid:1267)ng mô hình trên.
(cid:39)(cid:1133)(cid:1247)i (cid:255)ây là mô t(cid:1191) 2 ph(cid:1133)(cid:1131)ng pháp tách t(cid:1263) th(cid:1133)(cid:1249)ng s(cid:1265) d(cid:1257)ng :
2.2.1. Kh(cid:1247)p t(cid:1237)i (cid:255)a (LRMM – Left Right Max Matching)
Thu(cid:1201)t toán so kh(cid:1247)p t(cid:1237)i (cid:255)a ho(cid:1189)t (cid:255)(cid:1245)ng nh(cid:1133) tên c(cid:1259)a chính nó. Thu(cid:1201)t toán gi(cid:1191)i quy(cid:1219)t
bài toán tách t(cid:1263) nào có nhi(cid:1221)u t(cid:1263) nh(cid:1193)t (so kh(cid:1247)p (cid:255)(cid:1133)(cid:1255)c nhi(cid:1221)u nh(cid:1193)t). Thu(cid:1201)t toán (cid:255)(cid:1133)(cid:1255)c áp
(cid:71)(cid:1257)ng (cid:255)(cid:1223) xây d(cid:1269)ng ch(cid:1133)(cid:1131)ng trình tách t(cid:1263) ti(cid:1219)ng Trung Qu(cid:1237)c MMSEG. Thu(cid:1201)t toán này có
nhi(cid:1221)u bi(cid:1219)n th(cid:1223) khác nhau.
(cid:216) (cid:39)(cid:1189)ng (cid:255)(cid:1131)n gi(cid:1191)n, (cid:255)(cid:1133)(cid:1255)c dung (cid:255)(cid:1223) gi(cid:1191)i quy(cid:1219)t v(cid:1193)n (cid:255)(cid:1221) nh(cid:1201)p nh(cid:1205)ng t(cid:1263)(cid:3)(cid:255)(cid:1131)n. Gi(cid:1191) s(cid:1265) có
(cid:80)(cid:1245)t chu(cid:1243)i ký t(cid:1269) (t(cid:1133)(cid:1131)ng (cid:255)(cid:1133)(cid:1131)ng v(cid:1247)i chu(cid:1243)i ti(cid:1219)ng Vi(cid:1227)t trong ti(cid:1219)ng Vi(cid:1227)t) C1, C2
,…C3. Ta b(cid:1203)t (cid:255)(cid:1195)u t(cid:1263)(cid:3)(cid:255)(cid:1195)u chu(cid:1243)i. (cid:264)(cid:1195)u tiên, ki(cid:1223)m tra xem C1 có ph(cid:1191)i là t(cid:1263) không,
sau (cid:255)ó ki(cid:1223)m tra xem C1C2 có ph(cid:1191)i là t(cid:1263) hay không. Ti(cid:1219)p t(cid:1257)c làm cho (cid:255)(cid:1219)n khi tìm
(cid:255)(cid:1133)(cid:1255)c t(cid:1263) dài nh(cid:1193)t. T(cid:1263) có v(cid:1217) h(cid:1255)p lý nh(cid:1193)t là t(cid:1263) dài nh(cid:1193)t. Ch(cid:1233)n t(cid:1263)(cid:3)(cid:255)ó, sau (cid:255)ó tìm ti(cid:1219)p
nh(cid:1133) trên trên nh(cid:1267)ng t(cid:1263) còn l(cid:1189)i, cho (cid:255)(cid:1219)n khi xác (cid:255)(cid:1231)nh (cid:255)(cid:1133)(cid:1255)c toàn b(cid:1245) chu(cid:1243)i d(cid:1267) li(cid:1227)u.
(cid:216) (cid:39)(cid:1189)ng ph(cid:1261)c t(cid:1189)p. Quy t(cid:1203)c c(cid:1259)a d(cid:1189)ng này là phân (cid:255)(cid:82)(cid:1189)n có v(cid:1217) h(cid:1255)p lý nh(cid:1193)t là (cid:255)(cid:82)(cid:1189)n 3
(cid:87)(cid:1263) v(cid:1247)i chi(cid:1221)u dài t(cid:1237)i (cid:255)a. Thu(cid:1201)t toán b(cid:1203)t (cid:255)(cid:1195)u nh(cid:1133) d(cid:1189)ng (cid:255)(cid:1131)n gi(cid:1191)n. N(cid:1219)u phát hi(cid:1227)n ra
nh(cid:1267)ng cách tách t(cid:1263) gây nh(cid:1201)p nh(cid:1205)ng (ví d(cid:1257) C1 là t(cid:1263) và C1C2 (cid:70)(cid:458)ng là t(cid:1263)), ta xem
các ch(cid:1267) k(cid:1219) ti(cid:1219)p (cid:255)(cid:1223) tìm t(cid:1193)t c(cid:1191) các (cid:255)(cid:82)(cid:1189)n ba t(cid:1263) có th(cid:1223) có b(cid:1203)t (cid:255)(cid:1195)u v(cid:1247)i C1 ho(cid:1211)c C1C2.
Ví d(cid:877) 2-2 : ta (cid:255)(cid:1133)(cid:1255)c nh(cid:1267)ng (cid:255)(cid:82)(cid:1189)n sau:
- C1 C2 C3C4.
- C1C2 C3C4 C5
- C1C2 C3C4 C5C6
Chu(cid:1243)i dài nh(cid:1193)t s(cid:1217) là chu(cid:1243)i th(cid:1261) ba. V(cid:1201)y t(cid:1263)(cid:3)(cid:255)(cid:1195)u tiên c(cid:1259)a chu(cid:1243)i th(cid:1261) ba (C1C2) s(cid:1217)
(cid:255)(cid:1133)(cid:1255)c ch(cid:1233)n. Th(cid:1269)c hi(cid:1227)n l(cid:1189)i các b(cid:1133)(cid:1247)c cho (cid:255)(cid:1219)n khi (cid:255)(cid:1133)(cid:1255)c chu(cid:1243)i t(cid:1263) hoàn ch(cid:1229)nh. Cách này (cid:255)(cid:1189)t
(cid:255)(cid:1133)(cid:1255)c (cid:255)(cid:1245) chính xác 99.69%.
Mô hình s(cid:1265) d(cid:1257)ng ph(cid:1133)(cid:1131)ng pháp tách t(cid:1263) LRMM d(cid:1189)ng (cid:255)(cid:1131)n gi(cid:1191)n. Mô hình này v(cid:1263)a
21
(cid:255)(cid:1131)n gi(cid:1191)n, nh(cid:1133)ng mang l(cid:1189)i (cid:255)(cid:1245) chính xác cao.
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
2.2.2. Mô hình m(cid:1189)ng WFST và m(cid:1189)ng n(cid:1131)-ron
WFST (cid:255)ã (cid:255)(cid:1133)(cid:1255)c áp d(cid:1257)ng (cid:255)(cid:1223) tách t(cid:1263) ti(cid:1219)ng Trung Qu(cid:1237)c. Ý t(cid:1133)(cid:1251)ng c(cid:1131) b(cid:1191)n là áp d(cid:1257)ng
WFST k(cid:1219)t h(cid:1255)p v(cid:1247)i tr(cid:1233)ng s(cid:1237) là xác su(cid:1193)t xu(cid:1193)t hi(cid:1227)n c(cid:1259)a m(cid:1243)i t(cid:1263) trong ng(cid:1267) li(cid:1227)u. Dùng
WFST (cid:255)(cid:1223) duy(cid:1227)t qua câu c(cid:1195)n xét. Cách duy(cid:1227)t có tr(cid:1233)ng s(cid:1237) l(cid:1247)n nh(cid:1193)t s(cid:1217) là cách tách t(cid:1263)
(cid:255)(cid:1133)(cid:1255)c ch(cid:1233)n. Gi(cid:1191)i pháp này c(cid:458)ng (cid:255)ã (cid:255)(cid:1133)(cid:1255)c áp d(cid:1257)ng trong [5] kèm v(cid:1247)i m(cid:1189)ng n(cid:1131)-ron (cid:255)(cid:1223)
kh(cid:1265) nh(cid:1201)p nh(cid:1205)ng.
Mô hình tách t(cid:1263) trong VnMark s(cid:1265) d(cid:1257)ng chính là mô hình WFST này (Xem chi ti(cid:1219)t
(cid:75)(cid:1131)n trong [1] trang 99-104, hay trong [5])
2.3. Tách câu
Trong m(cid:1245)t v(cid:259)n b(cid:1191)n ti(cid:1219)ng Anh hay b(cid:1205)ng b(cid:1193)t k(cid:484) m(cid:1245)t ngôn ng(cid:1267) thông d(cid:1257)ng nào
khác, thông th(cid:1133)(cid:1249)ng thì ta ch(cid:1229) dùng d(cid:1193)u ch(cid:1193)m (.), ch(cid:1193)m than (!), ch(cid:1193)m h(cid:1235)i(?) và m(cid:1245)t s(cid:1237)
(cid:71)(cid:1193)u khác n(cid:1267)a (cid:255)(cid:1223) nh(cid:1201)n bi(cid:1219)t k(cid:1219)t thúc câu. (Ta g(cid:1233)i nh(cid:1267)ng d(cid:1193)u này là nh(cid:1267)ng d(cid:1193)u báo hi(cid:1227)u
(cid:78)(cid:1219)t thúc câu hay d(cid:1193)u ch(cid:1193)m câu). Tuy nhiên, do tính nh(cid:1201)p nh(cid:1205)ng c(cid:1259)a d(cid:1193)u báo hi(cid:1227)u k(cid:1219)t
thúc câu (ch(cid:1207)ng h(cid:1189)n nh(cid:1133) d(cid:1193)u k(cid:1219)t thúc câu trong t(cid:1263) vi(cid:1219)t t(cid:1203)t,…) nên vi(cid:1227)c xác (cid:255)(cid:1231)nh ranh
gi(cid:1247)i câu không (cid:255)(cid:1131)n gi(cid:1191)n nh(cid:1133) chúng ta ngh(cid:429). Ví d(cid:1257) nh(cid:1133) d(cid:1193)u ch(cid:1193)m, nó có th(cid:1223) bi(cid:1223)u th(cid:1231) nh(cid:1133)
(cid:80)(cid:1245)t d(cid:1193)u ch(cid:1193)m th(cid:1201)p phân, m(cid:1245)t c(cid:1257)m t(cid:1263) k(cid:1219)t thúc, s(cid:1269) k(cid:1219)t thúc câu v(cid:259)n ho(cid:1211)c ngay c(cid:1191) t(cid:1263) vi(cid:1219)t
(cid:87)(cid:1203)t n(cid:1205)m (cid:1251) cu(cid:1237)i câu. M(cid:1245)t d(cid:1193)u ch(cid:1193)m h(cid:1235)i hay d(cid:1193)u ch(cid:1193)m than có th(cid:1223) xu(cid:1193)t hi(cid:1227)n trong d(cid:1193)u
ngo(cid:1211)c (cid:255)(cid:1131)n, ngo(cid:1211)c kép hay c(cid:458)ng nh(cid:1133)(cid:3)(cid:1251) cu(cid:1237)i câu. S(cid:1269) m(cid:1201)p m(cid:1249) c(cid:1259)a các d(cid:1193)u câu này (cid:255)(cid:1133)(cid:1255)c
th(cid:1223) hi(cid:1227)n qua các ví d(cid:1257) sau:
Ví d(cid:877) 2-3:
1. The group included Dr. J.M. Freeman and T. Boone Pickens Jr.
2. “This issue crosses party lines and crosses philosophical lines!” said Rep.
John Rowland (R., Conn.).
3. It was due Friday 5 p.m. Saturday would be too late.
22
4. She has an appointment at 5 p.m. Saturday to get her car fixed.
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
Trong tr(cid:1133)(cid:1249)ng h(cid:1255)p 1 và 2, t(cid:1263) n(cid:1205)m ngay tr(cid:1133)(cid:1247)c ho(cid:1211)c n(cid:1205)m ngay sau d(cid:1193)u ch(cid:1193)m câu cho ta
nh(cid:1267)ng thông tin quan tr(cid:1233)ng v(cid:1221) vai trò c(cid:1259)a d(cid:1193)u trong câu. Tuy nhiên, b(cid:1245) ph(cid:1201)n tách câu
(cid:70)(cid:1195)n ph(cid:1191)i có nhi(cid:1221)u thông tin v(cid:1221) ng(cid:1267) c(cid:1191)nh h(cid:1131)n trong tr(cid:1133)(cid:1249)ng h(cid:1255)p vi(cid:1227)c ch(cid:1193)m câu xu(cid:1193)t hi(cid:1227)n
(cid:1251) m(cid:1245)t câu con trong d(cid:1193)u ngo(cid:1211)c (cid:255)(cid:1131)n ho(cid:1211)c ngo(cid:1211)c kép, nh(cid:1133) trong tr(cid:1133)(cid:1249)ng h(cid:1255)p 2; hay khi
ch(cid:1267) vi(cid:1219)t t(cid:1203)t xu(cid:1193)t hi(cid:1227)n (cid:1251) cu(cid:1237)i câu nh(cid:1133) trong tr(cid:1133)(cid:1249)ng h(cid:1255)p 3, 4. (cid:264)(cid:1223) nh(cid:1201)n di(cid:1227)n d(cid:1193)u ch(cid:1193)m
câu, ng(cid:1133)(cid:1249)i ta có th(cid:1223) dùng các heuristics ho(cid:1211)c các mô hình h(cid:1233)c ph(cid:1261)c t(cid:1189)p h(cid:1131)n, nh(cid:1133) :
(cid:80)(cid:1189)ng neural, TBL, Maximum Entropy.
2.3.1. Tách câu b(cid:1205)ng Heristics.
Sau khi nh(cid:1201)n (cid:255)(cid:82)(cid:1189)n v(cid:259)n b(cid:1191)n (cid:255)ã (cid:255)(cid:1133)(cid:1255)c l(cid:1233)c các ký t(cid:1269) d(cid:1133) th(cid:1263)a, các ký t(cid:1269) ph(cid:1257), b(cid:1245)
ph(cid:1201)n tách câu b(cid:1203)t (cid:255)(cid:1195)u phân tích d(cid:1269)a trên cách ch(cid:1193)m câu và ng(cid:1267) ngh(cid:429)a m(cid:1245)t s(cid:1237) t(cid:1263)(cid:3)(cid:255)(cid:1223) tách
ra các câu riêng bi(cid:1227)t.
2.3.1.1. (cid:59)(cid:1265) lý d(cid:1193)u ch(cid:1193)m.
(cid:39)(cid:1193)u ch(cid:1193)m “.” là d(cid:1193)u có nhi(cid:1221)u tr(cid:1133)(cid:1249)ng h(cid:1255)p m(cid:1131) h(cid:1239) nh(cid:1193)t. Sau (cid:255)ây là các tr(cid:1133)(cid:1249)ng h(cid:1255)p
(cid:71)(cid:1193)u ch(cid:1193)m xu(cid:1193)t hi(cid:1227)n:
1. (cid:39)(cid:1193)u ch(cid:1193)m k(cid:1219)t thúc câu.
2. (cid:39)(cid:1193)u ch(cid:1193)m th(cid:1201)p phân trong ch(cid:1267) s(cid:1237) (1,234.567)
3. (cid:39)(cid:1193)u ch(cid:1193)m bi(cid:1223)u th(cid:1231) s(cid:1269) vi(cid:1219)t t(cid:1203)t (Mr., Dr., ...)
4. (cid:39)(cid:1193)u ch(cid:1193)m trong các tr(cid:1133)(cid:1249)ng h(cid:1255)p khác nh(cid:1133) s(cid:1237) tài kho(cid:1191)n, email
(abcd@yahoo.com), d(cid:1193)u ch(cid:1193)m trong các (cid:255)(cid:1231)a ch(cid:1229) website (www.is-
edu.hcmuns.edu.vn).
(cid:264)(cid:1223) có th(cid:1223) phân bi(cid:1227)t (cid:255)(cid:1133)(cid:1255)c các tr(cid:1133)(cid:1249)ng h(cid:1255)p trên, ta có th(cid:1223) d(cid:1269)a vào m(cid:1245)t s(cid:1237)(cid:3)(cid:255)(cid:1211)c tr(cid:1133)ng
riêng trong cách trình bày c(cid:1259)a t(cid:1263)ng tr(cid:1133)(cid:1249)ng h(cid:1255)p.
1. (cid:49)(cid:1219)u d(cid:1193)u ch(cid:1193)m câu không thu(cid:1245)c các tr(cid:1133)(cid:1249)ng h(cid:1255)p còn l(cid:1189)i (2,3,4) thì d(cid:1193)u hi(cid:1227)u (cid:255)(cid:1223)
nh(cid:1201)n bi(cid:1219)t k(cid:1219)t thúc câu s(cid:1217) là : “luôn luôn có ít nh(cid:1193)t m(cid:1245)t kho(cid:1191)ng tr(cid:1203)ng sau d(cid:1193)u
ch(cid:1193)m và ký t(cid:1269) ti(cid:1219)p theo s(cid:1217) là ch(cid:1267) cái s(cid:1217)(cid:3)(cid:255)(cid:1133)(cid:1255)c vi(cid:1219)t hoa”.
2. Ta có th(cid:1223) nh(cid:1201)n bi(cid:1219)t d(cid:1193)u ch(cid:1193)m th(cid:1201)p phân b(cid:1205)ng cách (cid:255)(cid:1233)c toàn b(cid:1245) ph(cid:1195)n li(cid:1221)n tr(cid:1133)(cid:1247)c
23
và ph(cid:1195)n li(cid:1221)n sau d(cid:1193)u ch(cid:1193)m (cid:255)(cid:1223) phát hi(cid:1227)n s(cid:1237) có d(cid:1193)u ch(cid:1193)m th(cid:1201)p phân.
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
3. (cid:264)(cid:1223) nh(cid:1201)n bi(cid:1219)t d(cid:1193)u ch(cid:1193)m trong tr(cid:1133)(cid:1249)ng h(cid:1255)p các t(cid:1263) vi(cid:1219)t t(cid:1203)t, ta xây d(cid:1269)ng m(cid:1245)t danh
sách các t(cid:1263) vi(cid:1219)t t(cid:1203)t (cid:255)(cid:1223) tra c(cid:1261)u khi c(cid:1195)n.
4. Tr(cid:1133)(cid:1249)ng h(cid:1255)p này là tr(cid:1133)(cid:1249)ng h(cid:1255)p có các cách trình bày (cid:255)a d(cid:1189)ng nh(cid:1193)t, nh(cid:1133)ng v(cid:1199)n có
tính ch(cid:1193)t chung là d(cid:1193)u ch(cid:1193)m không bao gi(cid:1249) n(cid:1205)m cu(cid:1237)i t(cid:1263), luôn (cid:1251) gi(cid:1267)a hai ký t(cid:1269)
nào (cid:255)ó (ngh(cid:429)a là không có kho(cid:1191)ng tr(cid:1203)ng li(cid:1221)n sau) nên có th(cid:1223) d(cid:1225) dàng phân bi(cid:1227)t
(cid:255)(cid:1133)(cid:1255)c.
Nh(cid:1267)ng qui lu(cid:1201)t trên (cid:255)ây là nh(cid:1267)ng qui lu(cid:1201)t chung nh(cid:1193)t trong cách trình bày v(cid:259)n b(cid:1191)n
ti(cid:1219)ng Anh. (cid:264)(cid:1237)i v(cid:1247)i v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t, các tr(cid:1133)(cid:1249)ng h(cid:1255)p c(cid:458)ng g(cid:1195)n nh(cid:1133) th(cid:1219). Do d(cid:1269)a ch(cid:1259)
(cid:92)(cid:1219)u vào cách trình bày v(cid:259)n b(cid:1191)n nên có (cid:255)(cid:76)(cid:1223)m y(cid:1219)u là d(cid:1225) nh(cid:1195)m l(cid:1199)n khi v(cid:259)n b(cid:1191)n (cid:255)(cid:1133)a vào có
cách trình bày khác chu(cid:1197)n và do không hi(cid:1223)u ngh(cid:429)a câu nên không th(cid:1223) phân bi(cid:1227)t m(cid:1245)t s(cid:1237)
tr(cid:1133)(cid:1249)ng h(cid:1255)p m(cid:1131) h(cid:1239) nh(cid:1133) trong ví d(cid:1257) sau:
1. It was due Friday 5p.m. Saturday would be too late.
2. She has an appointment at 5 p.m. Saturday to get her car fixed.
(cid:264)(cid:1223) xác (cid:255)(cid:1231)nh (cid:255)(cid:1133)(cid:1255)c d(cid:1193)u ch(cid:1193)m (in (cid:255)(cid:1201)m) trong 2 tr(cid:1133)(cid:1249)ng h(cid:1255)p trên có ph(cid:1191)i là d(cid:1193)u ch(cid:1193)m
(cid:75)(cid:1219)t câu hay không c(cid:458)ng là m(cid:1245)t vi(cid:1227)c không (cid:255)(cid:1131)n gi(cid:1191)n (cid:255)(cid:1237)i v(cid:1247)i máy. Th(cid:1201)m chí (cid:255)(cid:1237)i v(cid:1247)i
ng(cid:1133)(cid:1249)i mà trình (cid:255)(cid:1245) ti(cid:1219)ng Anh ch(cid:1133)a v(cid:1267)ng. Trong c(cid:1191) hai tr(cid:1133)(cid:1249)ng h(cid:1255)p, t(cid:1263) ngay tr(cid:1133)(cid:1247)c ho(cid:1211)c
ngay sau d(cid:1193)u ch(cid:1193)m câu cho ta nh(cid:1267)ng thông tin quan tr(cid:1233)ng v(cid:1221) vai trò c(cid:1259)a d(cid:1193)u trong câu.
Tuy nhiên, b(cid:1245) ph(cid:1201)n tách câu s(cid:1217) ph(cid:1191)i c(cid:1195)n nhi(cid:1221)u thông tin v(cid:1221) ng(cid:1267) c(cid:1191)nh và cú pháp h(cid:1131)n
trong tr(cid:1133)(cid:1249)ng h(cid:1255)p s(cid:1269) ch(cid:1193)m câu xu(cid:1193)t hi(cid:1227)n (cid:1251) m(cid:1245)t câu con nh(cid:1133) trong tr(cid:1133)(cid:1249)ng h(cid:1255)p 1.
2.3.1.2. (cid:59)(cid:1265) lý d(cid:1193)u ch(cid:1193)m trong ngo(cid:1211)c.
Khi b(cid:1245) tách câu g(cid:1211)p d(cid:1193)u m(cid:1251) ngo(cid:1211)c (cid:255)(cid:1131)n, ho(cid:1211)c ngo(cid:1211)c kép, thì nó s(cid:1217) quét trong
(cid:255)(cid:82)(cid:1189)n v(cid:259)n (cid:255)ang xét (cid:255)(cid:1223) tìm d(cid:1193)u (cid:255)óng t(cid:1133)(cid:1131)ng (cid:1261)ng. N(cid:1219)u tìm th(cid:1193)y, toàn b(cid:1245) ph(cid:1195)n trong ngo(cid:1211)c
(cid:86)(cid:1217)(cid:3)(cid:255)(cid:1133)(cid:1255)c gi(cid:1267) nguyên và tìm d(cid:1193)u k(cid:1219)t thúc câu ti(cid:1219)p theo ngoài d(cid:1193)u ngo(cid:1211)c. N(cid:1219)u không tìm
th(cid:1193)y d(cid:1193)u (cid:255)óng t(cid:1133)(cid:1131)ng (cid:1261)ng, d(cid:1193)u m(cid:1251) s(cid:1217) b(cid:1231) b(cid:1235) qua và x(cid:1265) lý ti(cid:1219)p ký t(cid:1269) sau d(cid:1193)u m(cid:1251) nh(cid:1133) bình
24
th(cid:1133)(cid:1249)ng.
Ch(cid:1133)(cid:1131)ng 3. MÔ HÌNH CÀI (cid:264)(cid:1210)T
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
3.1. Các mô hình thêm d(cid:1193)u (cid:255)ã (cid:255)(cid:1133)(cid:1255)c s(cid:1265) d(cid:1257)ng
3.1.1. VietPad
3.1.1.1. Mô hình thêm d(cid:1193)u ti(cid:1219)ng Vi(cid:1227)t
Hình 3.1.1-7 : L(cid:753)u (cid:255)(cid:859) th(cid:889)c hi(cid:847)n c(cid:879)a mô hình (cid:881)ng d(cid:877)ng trong VietPad
3.1.1.1.1. Ti(cid:1221)n x(cid:1265) lý
26
Chu(cid:1197)n hoá v(cid:259)n b(cid:1191)n theo (cid:255)(cid:1231)nh d(cid:1189)ng mà VietPad quy (cid:255)(cid:1231)nh
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
3.1.1.1.2. Tách token
Vietpad không tách t(cid:1263)ng câu (cid:255)(cid:1223) x(cid:1265) lý, mà vào th(cid:1205)ng vi(cid:1227)c tách ra t(cid:1263)ng token
(cid:80)(cid:1245)t … Token có th(cid:1223) g(cid:1239)m 1 chu(cid:1243)i các kí t(cid:1269) không ph(cid:1191)i là kí t(cid:1269) (nh(cid:1133) : , . ; “ @
# $ …. ) hay 1 chu(cid:1243)i các kí t(cid:1269), hay là “ch(cid:1267)” ti(cid:1219)ng Vi(cid:1227)t.
Ví d(cid:877) 3-1:
Câu “--- Thoi gian troi qua mau ---” s(cid:1217)(cid:3)(cid:255)(cid:1133)(cid:1255)c VietPad tách thành t(cid:1263)ng
token nh(cid:1133) sau :
Token 1: ---\b (\b kí hi(cid:1227)u cho ‘ ’ _ kho(cid:1191)ng tr(cid:1203)ng)
Token 2: Thoi
Token 3: \b
Token 4: gian
Token 5: \b
Token 6: troi
Token 7: \b
Token 8: qua
Token 9: \b
Token 10: mau
Token 11: \b---
3.1.1.1.3. (cid:47)(cid:1193)y ra các t(cid:1263) không d(cid:1193)u, chuy(cid:1223)n thành t(cid:1263) có d(cid:1193)u
(cid:57)(cid:1247)i ph(cid:1133)(cid:1131)ng pháp tách token (cid:255)(cid:1131)n gi(cid:1191)n trên, và thêm ph(cid:1133)(cid:1131)ng pháp tách t(cid:1263)
LRMM (t(cid:1263) có t(cid:1237)i (cid:255)a 3 ti(cid:1219)ng), VietPad l(cid:1193)y ra các t(cid:1263) không d(cid:1193)u, sau (cid:255)ó thông
qua 1 t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n ánh x(cid:1189) 1-1 gi(cid:1267)a t(cid:1263) không d(cid:1193)u và t(cid:1263) có d(cid:1193)u (t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n chuy(cid:1223)n (cid:255)(cid:1241)i),
27
(cid:255)(cid:1223) chuy(cid:1223)n t(cid:1263) không d(cid:1193)u thành có d(cid:1193)u.
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
Ví d(cid:877) 3-2:
Câu “Nhung van de lien quan toi nguoi dong tinh luyen ai duoc ban
bac soi noi trong buoi hop nhom toi hom qua” s(cid:1217)(cid:3)(cid:255)(cid:1133)(cid:1255)c VietPad chuy(cid:1223)n
thành câu có d(cid:1193)u sau thông qua t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n (d(cid:1193)u / th(cid:1223) hi(cid:1227)n s(cid:1269) tách t(cid:1263) c(cid:1259)a VietPad)
“Nh(cid:1133)ng v(cid:1199)n / (cid:255)(cid:1223) / liên quan / tôi ng(cid:1133)(cid:1249)i / (cid:255)(cid:1245)ng t(cid:429)nh / luy(cid:1219)n ái / (cid:255)(cid:1133)(cid:1255)c /
(cid:69)(cid:1195)n b(cid:1189)c / sôi n(cid:1241)i / trong / bu(cid:1241)i / h(cid:1255)p / nhóm / tôi / hôm qua /”
3.1.2. VnMark
3.1.2.1. Mô hình thêm d(cid:1193)u ti(cid:1219)ng Vi(cid:1227)t
(cid:38)(cid:259)n c(cid:1261) vào mô hình n-gram, mô hình (cid:255)ánh d(cid:1193)u t(cid:1269)(cid:3)(cid:255)(cid:1245)ng ti(cid:1219)ng Vi(cid:1227)t (cid:255)(cid:1133)(cid:1255)c
28
tác gi(cid:1191) th(cid:1269)c hi(cid:1227)n theo l(cid:1133)u (cid:255)(cid:1239) sau:
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
29
Hình 3.1.2-8 : (cid:47)(cid:753)u (cid:255)(cid:859) th(cid:889)c hi(cid:847)n c(cid:879)a mô hình n-gram
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
3.1.2.1.1. Ti(cid:1221)n x(cid:1265) lý
Xóa các kho(cid:1191)ng tr(cid:1203)ng th(cid:1263)a. Th(cid:1269)c hi(cid:1227)n các công vi(cid:1227)c chu(cid:1197)n hóa d(cid:1267) li(cid:1227)u nh(cid:1201)p
vào… Thay th(cid:1219) các ký t(cid:1269) t(cid:1133)(cid:1255)ng t(cid:1269).
Theo các th(cid:1237)ng kê v(cid:1221) tâm lý, tác gi(cid:1191) nh(cid:1201)n th(cid:1193)y khi ng(cid:1133)(cid:1249)i s(cid:1265) d(cid:1257)ng (cid:255)ánh ch(cid:1267)
Vi(cid:1227)t không d(cid:1193)u thì ng(cid:1133)(cid:1249)i ta v(cid:1199)n (cid:255)ánh (cid:255)(cid:1133)(cid:1255)c các ký t(cid:1269) vi(cid:1219)t hoa nh(cid:1133) các danh t(cid:1263) riêng.
Do (cid:255)ó, các t(cid:1263) vi(cid:1219)t hoa s(cid:1217) không “th(cid:1133)(cid:1249)ng hóa” (lowercase) và các t(cid:1263) vi(cid:1219)t hoa này s(cid:1217)
(cid:255)(cid:1133)(cid:1255)c c(cid:259)n c(cid:1261)(cid:3)(cid:255)(cid:1223) nh(cid:1201)n d(cid:1189)ng danh t(cid:1263) riêng.
Ví d(cid:877) 3-3:
Da Nang (cid:224)(cid:3)(cid:264)à N(cid:1209)ng.
da nang(cid:224)(cid:3)(cid:255)a n(cid:259)ng
Do (cid:255)ó, tác gi(cid:1191) l(cid:1133)u ý ng(cid:1133)(cid:1249)i dùng v(cid:1221)(cid:3)(cid:255)(cid:1211)c (cid:255)(cid:76)(cid:1223)m này khi s(cid:1265) d(cid:1257)ng ch(cid:1133)(cid:1131)ng trình.
3.1.2.1.2. Tách câu
(cid:38)(cid:259)n c(cid:1261) vào các (cid:255)(cid:1211)c (cid:255)(cid:76)(cid:1223)m c(cid:1259)a ngôn ng(cid:1267) c(cid:1259)a ti(cid:1219)ng Vi(cid:1227)t : các t(cid:1263)(cid:3) (cid:255)(cid:1133)(cid:1255)c cách
nhau b(cid:1251)i các ký t(cid:1269) nh(cid:1133) “.”, “,”, “:”…(cid:255)(cid:1223) tách thành các câu. M(cid:1243)i câu là m(cid:1245)t (cid:255)(cid:1131)n v(cid:1231) x(cid:1265)
lý chính trong ch(cid:1133)(cid:1131)ng trình. Vi(cid:1227)c quy(cid:1219)t (cid:255)(cid:1231)nh câu là (cid:255)(cid:1131)n v(cid:1231) c(cid:1131) b(cid:1191)n là do nhi(cid:1221)u khi ngh(cid:429)a
(cid:70)(cid:1259)a câu s(cid:1217)(cid:3)(cid:255)(cid:1133)(cid:1255)c quy(cid:1219)t (cid:255)(cid:1231)nh s(cid:1269) l(cid:1269)a ch(cid:1233)n v(cid:1221) d(cid:1193)u trong câu.
3.1.2.1.3. Tìm các kh(cid:1191) n(cid:259)ng (cid:255)ánh d(cid:1193)u c(cid:1259)a t(cid:1263), câu
File t(cid:1263)(cid:3) (cid:255)(cid:76)(cid:1223)n (VNMarkDic.txt) s(cid:1217) cung c(cid:1193)p cho chúng ta xác su(cid:1193)t c(cid:1259)a các
nhóm âm ti(cid:1219)t có th(cid:1223) xu(cid:1193)t hi(cid:1227)n trong các v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t. File t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n này s(cid:1217)(cid:3) (cid:255)(cid:1133)(cid:1255)c
trình bày k(cid:1275) h(cid:1131)n trong ph(cid:1195)n sau.
(cid:38)(cid:259)n c(cid:1261) vào t(cid:1201)p tin t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n VNMarkDic.txt, tác gi(cid:1191) có th(cid:1223) t(cid:1189)o ra các tr(cid:1133)(cid:1249)ng
(cid:75)(cid:1255)p có th(cid:1223)(cid:3)(cid:255)ánh d(cid:1193)u c(cid:1259)a các t(cid:1263) trong câu. T(cid:1241) h(cid:1255)p các thành ph(cid:1195)n này s(cid:1217) t(cid:1189)o nên các
câu trong câu (cid:1261)ng viên (cid:255)ã (cid:255)(cid:1133)(cid:1255)c (cid:255)ánh d(cid:1193)u trong ti(cid:1219)ng Vi(cid:1227)t. Tuy nhiên, do c(cid:259)n c(cid:1261) vào
(cid:87)(cid:1201)p tin VNMarkDic.txt nên tác gi(cid:1191) có th(cid:1223) t(cid:1189)o ra s(cid:1237) l(cid:1133)(cid:1255)ng các câu (cid:1261)ng viên không nhi(cid:1221)u
(cid:79)(cid:1203)m.
Ví d(cid:877) 3-4:
30
Câu c(cid:1195)n gán d(cid:1193)u = “Toc do truyen thong se tang cao”.
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
Thông qua t(cid:1201)p tin t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n VNMarkDic.txt , tác gi(cid:1191) có các thông tin sau:
- toc do = “t(cid:1237)c (cid:255)(cid:1245)” 8.68
- truyen = “truy(cid:1221)n” 12.31
- truyen thong = “truy(cid:1221)n th(cid:1237)ng” 12.31
- thong tin = “thông tin” 7.24
- tin = “tin” 7.33
- se = “s(cid:1217)” 6.09
- tang = “t(cid:259)ng” 7.43
- cao = “cao” 6.95
Sau khi t(cid:1241) h(cid:1255)p các t(cid:1263) ta s(cid:1217)(cid:3)(cid:255)(cid:1133)(cid:1255)c 2 tr(cid:1133)(cid:1249)ng h(cid:1255)p sau: Tr(cid:1133)(cid:1249)ng h(cid:1255)p 1 = “T(cid:1237)c (cid:255)(cid:1245) truy(cid:1221)n th(cid:1237)ng tin s(cid:1217) t(cid:259)ng cao.” 48,79 1 Tr(cid:1133)(cid:1249)ng h(cid:1255)p 2 = “T(cid:1237)c (cid:255)(cid:1245) truy(cid:1221)n thông tin s(cid:1217) t(cid:259)ng cao.” 48.70 2
____________________________________________ 1 8.68 + 12.31 + 7.33 + 6.09 + 7.43 + 6.95 = 48.79 2 8.68 + 12.31 + 7.24 + 6.09 + 7.43 + 6.95 = 48.70
_____________________________________________
(cid:46)(cid:1219)t qu(cid:1191) = “T(cid:1237)c (cid:255)(cid:1245) truy(cid:1221)n thông tin s(cid:1217) t(cid:259)ng cao.” 48,70
(câu có t(cid:1195)n s(cid:1237) nh(cid:1235) thì s(cid:1269) th(cid:1133)(cid:1249)ng s(cid:1265) d(cid:1257)ng c(cid:1259)a các t(cid:1263) trong câu càng cao)
3.1.2.2. Mô hình hu(cid:1193)n luy(cid:1227)n
Nh(cid:1133)(cid:3)(cid:255)ã trình bày (cid:1251) ph(cid:1195)n trên, c(cid:1237)t lõi c(cid:1259)a v(cid:1193)n (cid:255)(cid:1221) là n(cid:1245)i dung t(cid:1201)p tin t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n
VNMarkDic.txt. T(cid:1201)p tin này s(cid:1217) ch(cid:1261)a xác su(cid:1193)t các nhóm âm ti(cid:1219)t có th(cid:1223) xu(cid:1193)t hi(cid:1227)n trong
(cid:89)(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t. Xác su(cid:1193)t này (cid:255)(cid:1133)(cid:1255)c tính d(cid:1269)a trên vi(cid:1227)c th(cid:1237)ng kê d(cid:1267) li(cid:1227)u c(cid:1259)a h(cid:1131)n
1.5GB file HTML (cid:255)(cid:1133)(cid:1255)c l(cid:1193)y t(cid:1263) trang www.vnexpress.net.
Khác v(cid:1247)i các mô hình gán d(cid:1193)u ti(cid:1219)ng Vi(cid:1227)t tr(cid:1133)(cid:1247)c (cid:255)ây, t(cid:1201)p tin t(cid:1263)(cid:3) (cid:255)(cid:76)(cid:1223)n không
nh(cid:1267)ng l(cid:1133)u các t(cid:1263) ti(cid:1219)ng Vi(cid:1227)t mà còn l(cid:1133)u các dãy âm ti(cid:1219)t trong ti(cid:1219)ng Vi(cid:1227)t. (cid:264)(cid:76)(cid:1221)u này giúp
31
cho mô hình có th(cid:1223) “vét c(cid:1189)n” các thông tin giúp cho vi(cid:1227)c gán d(cid:1193)u thanh cho các âm ti(cid:1219)t
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
tr(cid:1251) nên chính xác h(cid:1131)n. Ví d(cid:1257) : tôi c(cid:458)ng l(cid:1133)u thêm dãy âm ti(cid:1219)t “tr(cid:1133)(cid:1247)c vi(cid:1227)c”, … vào file
(cid:87)(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n này.
Tuy nhiên, vi(cid:1227)c l(cid:1133)u thêm các dãy âm ti(cid:1219)t vào t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n s(cid:1217) khi(cid:1219)n cho t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n r(cid:1193)t
(cid:79)(cid:1247)n (x(cid:1193)p x(cid:1229) 10MB). (cid:264)(cid:76)(cid:1221)u này khi(cid:1219)n cho vi(cid:1227)c tìm ki(cid:1219)m s(cid:1217) r(cid:1193)t ch(cid:1201)m. (cid:264)(cid:1223) gi(cid:1191)i quy(cid:1219)t v(cid:1193)n
(cid:255)(cid:1221) này, tác gi(cid:1191)(cid:3)(cid:255)(cid:1221) xu(cid:1193)t m(cid:1245)t heuristic (cid:255)(cid:1131)n gi(cid:1191)n, (cid:255)(cid:1211)t tên là S2T, giúp thu g(cid:1233)n d(cid:1267) li(cid:1227)u c(cid:1259)a
(cid:87)(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n :
Heuristic này (cid:255)(cid:1133)(cid:1255)c mô t(cid:1191) nh(cid:1133) sau:
(cid:42)(cid:1233)i d(cid:1267) li(cid:1227)u text t(cid:1263)(cid:3)(cid:255)(cid:1133)(cid:1255)c l(cid:1193)y t(cid:1263) trang www.vnexpress.net là C1.
(cid:42)(cid:1233)i d(cid:1267) li(cid:1227)u text t(cid:1263)(cid:3) (cid:255)(cid:1133)(cid:1255)c l(cid:1193)y t(cid:1263) trang www.vnexpress.net là b(cid:1231) b(cid:1235) h(cid:1219)t d(cid:1193)u
thanh là C2.
(cid:55)(cid:1263) d(cid:1267) li(cid:1227)u C1, tác gi(cid:1191) s(cid:1217) t(cid:1189)o ra file VNMarkDicPre.txt. File này s(cid:1217) ch(cid:1261)a
thông tin v(cid:1221) xác su(cid:1193)t c(cid:1259)a các dãy âm ti(cid:1219)t trong ti(cid:1219)ng Vi(cid:1227)t.
Tác gi(cid:1191) s(cid:1265) d(cid:1257)ng file VNMarkDicPre.txt (cid:255)(cid:1223) gán d(cid:1193)u thanh cho các d(cid:1267) li(cid:1227)u
C2. Khi (cid:255)ó, tác gi(cid:1191) s(cid:1217) so sánh v(cid:1247)i các d(cid:1267) li(cid:1227)u nguyên g(cid:1237)c C1. Qua (cid:255)ó, tác gi(cid:1191)(cid:3)(cid:255)ánh giá
các dãy âm ti(cid:1219)t nào nên (cid:255)(cid:1133)(cid:1255)c s(cid:1265) d(cid:1257)ng, dãy âm ti(cid:1219)t nào không nên s(cid:1265) d(cid:1257)ng.
(cid:55)(cid:1263) thông tin trên, tác gi(cid:1191) có th(cid:1223) rút trích các dãy âm ti(cid:1219)t “có ích” trong file
VNMarkDicPre.txt(cid:3)(cid:255)(cid:1223) t(cid:1189)o t(cid:1201)p tin VNMarkDic.txt.
3.2. Mô hình (cid:255)(cid:1221) xu(cid:1193)t
3.2.1. Mô hình
(cid:38)(cid:259)n c(cid:1261) vào mô hình Bigram, và d(cid:1269)a vào ý t(cid:1133)(cid:1251)ng c(cid:1259)a vi(cid:1227)c th(cid:1237)ng kê các
(cid:70)(cid:1257)m t(cid:1263) c(cid:1259)a mô hình VnMark c(cid:1259)a tác gi(cid:1191) Nguy(cid:1225)n V(cid:259)n Toàn, tôi (cid:255)(cid:1221) xu(cid:1193)t mô hình
32
thêm d(cid:1193)u t(cid:1269)(cid:3)(cid:255)(cid:1245)ng sau :
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
Hình 3.2-9: (cid:47)(cid:753)u (cid:255)(cid:859) th(cid:889)c hi(cid:847)n c(cid:879)a mô hình (cid:255)(cid:841) xu(cid:813)t
3.2.1.1. Tách câu
(cid:54)(cid:1265) d(cid:1257)ng ph(cid:1133)(cid:1131)ng pháp tách câu heuristic (cid:255)ã nêu trong ch(cid:1133)(cid:1131)ng 2, ph(cid:1195)n
33
2.3, m(cid:1257)c 2.3.1. Qua ph(cid:1133)(cid:1131)ng pháp tách câu trên, ta có th(cid:1223) phân bi(cid:1227)t (cid:255)(cid:1133)(cid:1255)c 1 s(cid:1237)
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
tr(cid:1133)(cid:1249)ng h(cid:1255)p (cid:255)(cid:1211)c bi(cid:1227)t c(cid:1259)a d(cid:1193)u ch(cid:1193)m câu “.” nh(cid:1133) t(cid:1263) vi(cid:1219)t t(cid:1203)t (Mr., Mrs. …), (cid:255)(cid:1231)a
ch(cid:1229) email (abc@gmail.com), (cid:255)(cid:1231)a ch(cid:1229) URL (http://mail.yahoo.com), s(cid:1237) th(cid:1201)p
phân (1,234.567) … (cid:264)(cid:1195)u ra c(cid:1259)a b(cid:1133)(cid:1247)c này s(cid:1217) cho ra 1 t(cid:1201)p các câu, là (cid:255)(cid:1195)u vào
(cid:70)(cid:1259)a b(cid:1133)(cid:1247)c sau.
3.2.1.2. Tách t(cid:1263) b(cid:1205)ng ph(cid:1133)(cid:1131)ng pháp LRMM
Ta dùng ph(cid:1133)(cid:1131)ng pháp tách t(cid:1263) LRMM tách các t(cid:1263) không d(cid:1193)u t(cid:1263)ng câu
(cid:80)(cid:1245)t. Lý do ch(cid:1233)n ph(cid:1133)(cid:1131)ng pháp này là : cài (cid:255)(cid:1211)t ph(cid:1133)(cid:1131)ng pháp (cid:255)(cid:1131)n gi(cid:1191)n, sai s(cid:1237)
khi tách sai t(cid:1263) có th(cid:1223) ch(cid:1193)p nh(cid:1201)n (cid:255)(cid:1133)(cid:1255)c khi tách t(cid:1263) không d(cid:1193)u.
Ví d(cid:877) 3-5: Ta có cách tách t(cid:1263) câu có d(cid:1193)u và câu không d(cid:1193)u sau (các t(cid:1263)
phân cách nhau b(cid:1205)ng d(cid:1193)u / )
o “H(cid:1233)c sinh / h(cid:1233)c / sinh h(cid:1233)c”
o “Hoc sinh / hoc sinh / hoc” (cid:224) khi chuy(cid:1223)n thành câu có d(cid:1193)u, c(cid:458)ng t(cid:1189)o
(cid:255)(cid:1133)(cid:1255)c câu “H(cid:1233)c sinh / h(cid:1233)c sinh / h(cid:1233)c” nh(cid:1133) trên (cid:224) sai s(cid:1237) khi tách t(cid:1263) có th(cid:1223)
ch(cid:1193)p nh(cid:1201)n (cid:255)(cid:1133)(cid:1255)c trong 1 ph(cid:1189)m vi nào (cid:255)ó.
Khi tách t(cid:1263) b(cid:1205)ng ph(cid:1133)(cid:1131)ng pháp LRMM, ta có chú ý (cid:255)(cid:1219)n vi(cid:1227)c nh(cid:1201)n di(cid:1227)n và
tách các t(cid:1263) tên riêng ra d(cid:1269)a trên 1 t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n tên riêng. Vi(cid:1227)c xác (cid:255)(cid:1231)nh các tên
riêng d(cid:1269)a trên ch(cid:1267) cái vi(cid:1219)t hoa (cid:255)(cid:1195)u c(cid:1259)a t(cid:1263), 1 c(cid:1257)m tên riêng, có th(cid:1223) ch(cid:1229) c(cid:1195)n
vi(cid:1219)t hoa ti(cid:1219)ng (cid:255)(cid:1195)u tiên là (cid:255)(cid:1133)(cid:1255)c.
Ví d(cid:877) 3-6:
Da Nang (cid:224)(cid:3)(cid:264)à N(cid:1209)ng
Da nang (cid:224)(cid:3)(cid:264)à N(cid:1209)ng
da nang (cid:224)(cid:3)(cid:255)a n(cid:259)ng
3.2.1.3. Ch(cid:1233)n t(cid:1263) thích h(cid:1255)p
(cid:57)(cid:1247)i t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n chuy(cid:1223)n (cid:255)(cid:1241)i TuDienChinh.txt, ta có ánh x(cid:1189) 1-1 (cid:255)(cid:1223) chuy(cid:1223)n 1 t(cid:1263)
34
không d(cid:1193)u thành có d(cid:1193)u. Ngoài ra, (cid:255)(cid:1223) t(cid:259)ng (cid:255)(cid:1245) linh ho(cid:1189)t và chính xác c(cid:1259)a
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
ph(cid:1133)(cid:1131)ng pháp, ta có thêm 1 t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n ph(cid:1257), g(cid:1233)i là t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n c(cid:1257)m t(cid:1263) CumTu.txt, l(cid:1133)u
nh(cid:1267)ng c(cid:1257)m t(cid:1263) th(cid:1133)(cid:1249)ng xuyên (cid:255)(cid:1133)(cid:1255)c s(cid:1265) d(cid:1257)ng.
Các c(cid:1257)m t(cid:1263) này (cid:255)(cid:1133)(cid:1255)c l(cid:1133)u có c(cid:1193)u trúc. V(cid:1247)i m(cid:1243)i c(cid:1257)m t(cid:1263), ta có 1 (cid:87)(cid:1263) chính,
và các chu(cid:1243)i t(cid:1263) còn l(cid:1189)i trong c(cid:1257)m t(cid:1263). (cid:264)i kèm v(cid:1247)i chu(cid:1243)i t(cid:1263) là con s(cid:1237) th(cid:1223) hi(cid:1227)n
(cid:89)(cid:1231) trí c(cid:1259)a (cid:87)(cid:1263) chính này v(cid:1247)i chu(cid:1243)i t(cid:1263). (xem chi ti(cid:1219)t c(cid:1193)u trúc và cách t(cid:1189)o trong
(cid:80)(cid:1257)c 3.2.2.2)
Ví d(cid:877) 3-7: 1 vài c(cid:1257)m t(cid:1263)(cid:3)(cid:255)(cid:1133)(cid:1255)c l(cid:1133)u
(cid:87)(cid:857)i
(cid:224) t(cid:1263) “t(cid:1237)i” có 3 c(cid:1257)m t(cid:1263) là “qu(cid:1195)n áo m(cid:1211)c bu(cid:1241)i t(cid:1237)i”, “bu(cid:1241)i t(cid:1237)i” và “t(cid:1237)i
hôm” v(cid:1247)i “t(cid:1237)i” là (cid:87)(cid:1263) chính trong 3 c(cid:1257)m t(cid:1263) trên.
Sau khi ánh x(cid:1189) 1-1 d(cid:1269)a trên TuDienChinh.txt xong, ch(cid:1133)(cid:1131)ng trình s(cid:1217) làm
thêm 1 b(cid:1133)(cid:1247)c n(cid:1267)a, là tìm trong t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n c(cid:1257)m t(cid:1263), xem có s(cid:1269) xu(cid:1193)t hi(cid:1227)n c(cid:1257)m t(cid:1263)
nào trong v(cid:259)n b(cid:1191)n không ? N(cid:1219)u có, thì ch(cid:1133)(cid:1131)ng trình s(cid:1217) s(cid:1265)a l(cid:1189)i k(cid:1219)t qu(cid:1191), (cid:255)(cid:1223)
(cid:255)(cid:1133)(cid:1255)c k(cid:1219)t qu(cid:1191) chính xác h(cid:1131)n. Ph(cid:1133)(cid:1131)ng pháp xét duy(cid:1227)t (cid:255)(cid:1133)(cid:1255)c mô t(cid:1191) nh(cid:1133) sau:
(Sau khi (cid:255)ã ánh x(cid:809) t(cid:883) không d(cid:813)u thành có d(cid:813)u r(cid:859)i)
Duy(cid:847)t các t(cid:883) không d(cid:813)u t(cid:883) trái qua ph(cid:811)i
V(cid:867)i t(cid:883) không d(cid:813)u có xu(cid:813)t hi(cid:847)n trong t(cid:883)(cid:3) (cid:255)(cid:76)(cid:843)n CumTu.txt (là (cid:87)(cid:883)
chính c(cid:879)a c(cid:877)m t(cid:883) sau khi lo(cid:809)i b(cid:855) d(cid:813)u), ta xét trong ph(cid:809)m vi [-3,+3] t(cid:883) xung
quanh t(cid:883)(cid:3)(cid:255)ó, (cid:255)(cid:843) xét xem, có s(cid:889) xu(cid:813)t hi(cid:847)n c(cid:879)a chu(cid:863)i còn l(cid:809)i c(cid:879)a c(cid:877)m t(cid:883) không
? N(cid:839)u có thì có s(cid:889) xu(cid:813)t hi(cid:847)n c(cid:879)a c(cid:877)m t(cid:883)(cid:3) (cid:255)ó (cid:224) thay (cid:255)(cid:861)i t(cid:883) không d(cid:813)u (cid:255)ó
thành (cid:87)(cid:883) chính.
Ví d(cid:877) 3-8:
Câu “Nhung van de lien quan toi nguoi dong tinh luyen ai duoc ban
bac soi noi trong buoi hop nhom toi hom qua” s(cid:1217)(cid:3)(cid:255)(cid:1133)(cid:1255)c chuy(cid:1223)n thành câu
35
có d(cid:1193)u qua các b(cid:1133)(cid:1247)c sau:
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
o Tách câu : t(cid:1189)o ra 1 câu duy nh(cid:1193)t là “Nhung van de lien quan toi nguoi
dong tinh luyen ai duoc ban bac soi noi trong buoi hop nhom toi hom
qua”
o Tách t(cid:883) (các t(cid:883) phân cách nhau b(cid:825)ng d(cid:813)u / ) : “Nhung / van de / lien
quan / toi / nguoi / dong tinh luyen ai / duoc / ban bac / soi noi / trong /
buoi / hop / nhom / toi / hom qua”
o Thêm d(cid:813)u d(cid:889)a trên TuDienChinh.txt : ta (cid:255)(cid:1133)(cid:1255)c câu sau “Nh(cid:1267)ng / v(cid:1193)n (cid:255)(cid:1221) /
liên quan / tôi / ng(cid:1133)(cid:1249)i / (cid:255)(cid:1239)ng tính luy(cid:1219)n ái / (cid:255)(cid:1133)(cid:1255)c / bàn b(cid:1189)c / sôi n(cid:1241)i /
trong / bu(cid:1241)i / h(cid:1233)p / nhóm / tôi / hôm qua”
o Xét duy(cid:847)t l(cid:809)i d(cid:889)a trên CumTu.txt : ta (cid:255)(cid:1133)(cid:1255)c câu hoàn ch(cid:1229)nh cu(cid:1237)i cùng sau
“Nh(cid:1267)ng / v(cid:1193)n (cid:255)(cid:1221) / liên quan / (cid:87)(cid:1247)i / ng(cid:1133)(cid:1249)i / (cid:255)(cid:1239)ng tính luy(cid:1219)n ái / (cid:255)(cid:1133)(cid:1255)c / bàn
(cid:69)(cid:1189)c / sôi n(cid:1241)i / trong / bu(cid:1241)i / h(cid:1233)p / nhóm / (cid:87)(cid:1237)i / hôm qua”
3.2.2. Mô hình hu(cid:1193)n luy(cid:1227)n
Ph(cid:1195)n quan tr(cid:1233)ng nh(cid:1193)t c(cid:1259)a mô hình là các t(cid:1201)p tin t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n (cid:255)(cid:1133)(cid:1255)c cung c(cid:1193)p cho
mô hình, mà quan tr(cid:1233)ng nh(cid:1193)t là 2 t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n : TuDienChinh.txt và CumTu.txt. Sau
(cid:255)ây mô t(cid:1191) chi ti(cid:1219)t các b(cid:1133)(cid:1247)c (cid:255)(cid:1223) t(cid:1189)o nên 2 t(cid:1201)p tin trên.
3.2.2.1. Th(cid:1237)ng kê t(cid:1195)n su(cid:1193)t xu(cid:1193)t hi(cid:1227)n c(cid:1259)a t(cid:1263)
3.2.2.1.1. Xây d(cid:1269)ng kho ng(cid:1267) li(cid:1227)u
Trích xu(cid:1193)t d(cid:1267) li(cid:1227)u text t(cid:1263) kho d(cid:1267) li(cid:1227)u báo (cid:255)(cid:76)(cid:1227)n t(cid:1265) trên Internet. D(cid:1267) li(cid:1227)u
báo (cid:255)(cid:76)(cid:1227)n t(cid:1265) trên Internet s(cid:1265) d(cid:1257)ng g(cid:1239)m 700MB d(cid:1267) li(cid:1227)u báo Thanh niên, 500MB
báo Ng(cid:1133)(cid:1249)i Lao (cid:264)(cid:1245)ng và 700MB báo S(cid:1203)c màu v(cid:259)n hoá.
( Xin xem thêm trong Ph(cid:1257) l(cid:1257)c 1(cid:3)(cid:255)(cid:1223) bi(cid:1219)t chi ti(cid:1219)t c(cid:1193)u trúc kho ng(cid:1267) li(cid:1227)u)
Sau b(cid:1133)(cid:1247)c này, ta có (cid:255)(cid:1133)(cid:1255)c 1 th(cid:1133) m(cid:1257)c ch(cid:1261)a nhi(cid:1221)u t(cid:1201)p tin text, m(cid:1243)i t(cid:1201)p tin
36
ch(cid:1261)a t(cid:1201)p các câu thu(cid:1245)c cùng 1 l(cid:429)nh v(cid:1269)c. Các l(cid:429)nh v(cid:1269)c (cid:255)(cid:1133)(cid:1255)c s(cid:1265) d(cid:1257)ng, (cid:255)(cid:1223) phù h(cid:1255)p
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
(cid:89)(cid:1247)i m(cid:1257)c (cid:255)ích t(cid:1241)ng quát c(cid:1259)a ch(cid:1133)(cid:1131)ng trình, em ch(cid:1233)n các bài báo v(cid:1221) tin t(cid:1261)c, th(cid:1249)i
(cid:86)(cid:1269), xã h(cid:1245)i, chính tr(cid:1231) … và kèm thêm 1 ít v(cid:1221) các l(cid:429)nh v(cid:1269)c khác nh(cid:1133) khoa h(cid:1233)c,
giáo d(cid:1257)c …
(cid:264)(cid:1245) l(cid:1247)n c(cid:1259)a kho d(cid:1267) li(cid:1227)u vào kho(cid:1191)ng 150MB d(cid:1267) li(cid:1227)u. L(cid:1133)(cid:1255)ng d(cid:1267) li(cid:1227)u này
(cid:255)(cid:1259) l(cid:1247)n (cid:255)(cid:1223) mô hình ho(cid:1189)t (cid:255)(cid:1245)ng (cid:255)(cid:1133)(cid:1255)c chính xác.
3.2.2.1.2. Th(cid:1237)ng kê t(cid:1195)n su(cid:1193)t xu(cid:1193)t hi(cid:1227)n c(cid:1259)a t(cid:1263)
(cid:57)(cid:1247)i k(cid:1219)t qu(cid:1191) c(cid:1259)a b(cid:1133)(cid:1247)c trên, ta duy(cid:1227)t t(cid:1193)t c(cid:1191) các t(cid:1201)p tin trong th(cid:1133) m(cid:1257)c, sau
(cid:255)ó dùng ph(cid:1133)(cid:1131)ng pháp LRMM (cid:255)(cid:1223) tách t(cid:1263) t(cid:1263)ng câu m(cid:1245)t, th(cid:1237)ng kê t(cid:1195)n su(cid:1193)t xu(cid:1193)t
hi(cid:1227)n c(cid:1259)a t(cid:1263) theo công th(cid:1261)c sau :
(cid:55)(cid:815)n su(cid:813)t t(cid:883) = -log10(s(cid:857) l(cid:815)n xu(cid:813)t hi(cid:847)n c(cid:879)a t(cid:883) / t(cid:861)ng s(cid:857) t(cid:883))
Sau b(cid:1133)(cid:1247)c này, ta có (cid:255)(cid:1133)(cid:1255)c 1 t(cid:1201)p tin text ch(cid:1261)a t(cid:1195)n su(cid:1193)t các t(cid:1263) mà ta th(cid:1237)ng
kê (cid:255)(cid:1133)(cid:1255)c.
(cid:39)(cid:1269)a trên kho ng(cid:1267) li(cid:1227)u 150MB, ta th(cid:1237)ng kê (cid:255)(cid:1133)(cid:1255)c s(cid:1237) l(cid:1133)(cid:1255)t t(cid:1263) s(cid:1265) d(cid:1257)ng vào
kho(cid:1191)ng g(cid:1195)n 18 tri(cid:1227)u t(cid:1263), s(cid:1237) lo(cid:1189)i t(cid:1263) khác nhau s(cid:1265) d(cid:1257)ng là trên 26400 t(cid:1263). Các
37
thông s(cid:1237) th(cid:1237)ng kê trên (cid:255)(cid:1133)(cid:1255)c ghi vào t(cid:1201)p tin log khi ch(cid:1133)(cid:1131)ng trình ch(cid:1189)y.
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
Hình 3.2-10 : (cid:55)(cid:821)p tin m(cid:819)u sau khi th(cid:857)ng kê t(cid:815)n su(cid:813)t t(cid:883)
3.2.2.1.3. (cid:55)(cid:1189)o t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n chuy(cid:1223)n (cid:255)(cid:1241)i
Vi(cid:1227)c t(cid:1189)o t(cid:1201)p tin t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n chuy(cid:1223)n (cid:255)(cid:1241)i TuDienChinh.txt r(cid:1193)t d(cid:1225) dàng. V(cid:1247)i t(cid:1201)p
tin th(cid:1237)ng kê t(cid:1195)n su(cid:1193)t xu(cid:1193)t hi(cid:1227)n c(cid:1259)a t(cid:1263)(cid:3)(cid:1251) b(cid:1133)(cid:1247)c trên, ta lo(cid:1189)i b(cid:1235) các t(cid:1263) có t(cid:1195)n su(cid:1193)t
> 7. Vi(cid:1227)c lo(cid:1189)i b(cid:1235) này giúp cho ph(cid:1133)(cid:1131)ng pháp ch(cid:1229) chú tr(cid:1233)ng (cid:255)(cid:1219)n các t(cid:1263) có t(cid:1195)n
su(cid:1193)t nh(cid:1235) (t(cid:1261)c xu(cid:1193)t hi(cid:1227)n nhi(cid:1221)u nh(cid:1193)t). V(cid:1247)i các t(cid:1263) không d(cid:1193)u có nhi(cid:1221)u t(cid:1263) có d(cid:1193)u,
thì ta ch(cid:1233)n ra t(cid:1263) có d(cid:1193)u có t(cid:1195)n su(cid:1193)t nh(cid:1235) nh(cid:1193)t (t(cid:1261)c xu(cid:1193)t hi(cid:1227)n nhi(cid:1221)u nh(cid:1193)t) (cid:255)(cid:1223) t(cid:1189)o
thành t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n TuDienChinh.txt v(cid:1247)i c(cid:1193)u trúc sau :
38
(cid:48)(cid:1243)i dòng c(cid:1259)a t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n có c(cid:1193)u trúc sau :
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
Hình 3.2-11 : Trích t(cid:821)p tin TuDienChinh.txt
3.2.2.2. Trích xu(cid:1193)t các c(cid:1257)m t(cid:1263) th(cid:1133)(cid:1249)ng s(cid:1265) d(cid:1257)ng
(cid:264)ây là 1 ph(cid:1133)(cid:1131)ng pháp t(cid:1133)(cid:1131)ng (cid:255)(cid:1237)i (cid:255)(cid:1131)n gi(cid:1191)n (cid:255)(cid:1223) rút trích ra 1 s(cid:1237) c(cid:1257)m t(cid:1263)
th(cid:1133)(cid:1249)ng s(cid:1265) d(cid:1257)ng. Ta d(cid:1269)a vào t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n LLOCE ti(cid:1219)ng Vi(cid:1227)t (cid:255)(cid:1223) rút ra các c(cid:1257)m t(cid:1263),
chú ý là, trong quá trình rút trích, ta ch(cid:1229) quan tâm (cid:255)(cid:1219)n các c(cid:1257)m t(cid:1263) ch(cid:1229) ch(cid:1261)a
các t(cid:1263) t(cid:1189)o nên s(cid:1269) nh(cid:1201)p nh(cid:1205)ng khi lo(cid:1189)i b(cid:1235) d(cid:1193)u (nh(cid:1133) t(cid:1263) “tôi”, “t(cid:1247)i”, “t(cid:1237)i” khi
lo(cid:1189)i b(cid:1235) s(cid:1217) t(cid:1189)o thành t(cid:1263) “toi” (cid:224) nh(cid:1201)p nh(cid:1205)ng) t(cid:1263)(cid:3)(cid:255)ó, th(cid:1237)ng kê trên kho ng(cid:1267) li(cid:1227)u
150MB (cid:1251) b(cid:1133)(cid:1247)c trên, (cid:255)(cid:1223) rút ra các c(cid:1257)m t(cid:1263) th(cid:1133)(cid:1249)ng s(cid:1265) d(cid:1257)ng. Các c(cid:1257)m t(cid:1263) này s(cid:1217)
(cid:255)(cid:1133)(cid:1255)c l(cid:1133)u nh(cid:1133) sau :
(cid:48)(cid:1243)i dòng có c(cid:1193)u trúc sau :
Mô t(cid:1191):
39
- {1,n} : l(cid:1211)p c(cid:1193)u trúc trong {} t(cid:1263) 1 (cid:255)(cid:1219)n nhi(cid:1221)u l(cid:1195)n
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
- (cid:55)(cid:883) chính trong c(cid:877)m t(cid:883) : là t(cid:1263) có d(cid:1193)u. T(cid:1263) này, sau khi b(cid:1235) d(cid:1193)u, thì t(cid:1263) không d(cid:1193)u này
(cid:86)(cid:1217) có nhi(cid:1221)u t(cid:1263) có d(cid:1193)u t(cid:1133)(cid:1131)ng (cid:1261)ng (t(cid:1263) gây nh(cid:1201)p nh(cid:1205)ng). T(cid:1201)p tin CumTu.txt ch(cid:1229) xét
các c(cid:1257)m t(cid:1263) có ch(cid:1261)a các (cid:87)(cid:883) chính t(cid:1189)o nên s(cid:1269) nh(cid:1201)p nh(cid:1205)ng này thôi.
- (cid:89)(cid:851) trí : ch(cid:1229) v(cid:1231) trí c(cid:1259)a
các giá tr(cid:1231) sau:
o (cid:89)(cid:1231) trí = 0 : nói lên r(cid:1205)ng,
và chu(cid:1243)i tr(cid:1133)(cid:1247)c
kí t(cid:1269) phân cách ‘|’
o (cid:89)(cid:1231) trí = 1 : nói lên r(cid:1205)ng,
(cid:255)ó, ch(cid:1229) xu(cid:1193)t hi(cid:1227)n 1
o (cid:89)(cid:1231) trí =2 : nói lên r(cid:1205)ng,
(cid:255)ó, ch(cid:1229) xu(cid:1193)t hi(cid:1227)n 1
Ví d(cid:877) 3-9:
món 2|(cid:259)n (cid:224) c(cid:1257)m t(cid:1263) “món (cid:259)n”, t(cid:1263) chính là “món” (cid:255)(cid:1261)ng tr(cid:1133)(cid:1247)c “(cid:259)n”
(cid:255)(cid:1193)u 0|môn|bóng (cid:224) c(cid:1257)m t(cid:1263) “môn (cid:255)(cid:1193)u bóng”, t(cid:1263) chính là “(cid:255)(cid:1193)u” (cid:255)(cid:1261)ng tr(cid:1133)(cid:1247)c
“bóng” và (cid:255)(cid:1261)ng sau “môn”
40
(cid:87)(cid:1237)i 1|bu(cid:1241)i (cid:224) c(cid:1257)m t(cid:1263) “bu(cid:1241)i t(cid:1237)i”, t(cid:1263) chính là “t(cid:1237)i” (cid:255)(cid:1261)ng sau “bu(cid:1241)i”
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
Hình 3.2-12 : Trích t(cid:821)p tin CumTu.txt
3.2.3.
So sánh mô hình này v(cid:1247)i 2 mô hình trên
Mô hình (cid:255)(cid:1221) xu(cid:1193)t là mô hình nâng cao c(cid:1259)a mô hình VietPad s(cid:1265) d(cid:1257)ng. V(cid:1247)i các (cid:1133)u
th(cid:1219) h(cid:1131)n h(cid:1207)n nh(cid:1133) có ph(cid:1195)n tách câu, kh(cid:1191) n(cid:259)ng (cid:255)(cid:1241)i t(cid:1263) không d(cid:1193)u thành có d(cid:1193)u linh
ho(cid:1189)t qua t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n CumTu.txt ch(cid:1261) không là ánh x(cid:1189) 1-1 nh(cid:1133) Vietpad, kh(cid:1191) n(cid:259)ng nh(cid:1201)n
di(cid:1227)n t(cid:1263) tên riêng ...
So v(cid:1247)i mô hình mà VnMark s(cid:1265) d(cid:1257)ng, m(cid:1243)i mô hình có 1 (cid:255)(cid:76)(cid:1223)m m(cid:1189)nh riêng,
nh(cid:1133)ng ph(cid:1133)(cid:1131)ng pháp mà mô hình em (cid:255)(cid:1221) xu(cid:1193)t, có th(cid:1223) tái k(cid:1219)t h(cid:1255)p v(cid:1247)i mô hình c(cid:1259)a
41
VnMark (cid:255)(cid:1223) cho ra 1 k(cid:1219)t qu(cid:1191) hoàn ch(cid:1229)nh h(cid:1131)n n(cid:1267)a.
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
(cid:264)(cid:76)(cid:1223)m n(cid:1241)i tr(cid:1245)i c(cid:1259)a mô hình, là kh(cid:1191) n(cid:259)ng xét duy(cid:1227)t và phát hi(cid:1227)n c(cid:1257)m t(cid:1263) 1 cách
linh ho(cid:1189)t trong ph(cid:1189)m vi [-3,+3] mà các mô hình khác không th(cid:1269)c hi(cid:1227)n (cid:255)(cid:1133)(cid:1255)c. Vi(cid:1227)c
xét duy(cid:1227)t này cho phép phát hi(cid:1227)n và gán d(cid:1193)u chính xác, khi c(cid:1257)m t(cid:1263) xu(cid:1193)t hi(cid:1227)n không
liên t(cid:877)c.
Ví d(cid:877) 3-10:
Ch(cid:1133)(cid:1131)ng trình có th(cid:1223) phát hi(cid:1227)n và chuy(cid:1223)n t(cid:1263) “toi” thành “t(cid:1237)i” khi phát hi(cid:1227)n ra
(cid:70)(cid:1257)m t(cid:1263) “t(cid:1237)i ngày hôm (cid:255)ó”, “t(cid:1237)i ngày hôm kia”, “t(cid:1237)i ngày hôm n(cid:1233)” … khi trong t(cid:1263)
42
(cid:255)(cid:76)(cid:1223)n CumTu.txt ch(cid:1229) l(cid:1133)u “t(cid:1237)i 2|hôm”.
Ch(cid:1133)(cid:1131)ng 4. CÀI (cid:264)(cid:1210)T
TH(cid:1264) NGHI(cid:1226)M
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
4.1. Th(cid:1237)ng kê t(cid:1195)n s(cid:1237) xu(cid:1193)t hi(cid:1227)n c(cid:1259)a t(cid:1263)
Sau (cid:255)ây là các b(cid:1133)(cid:1247)c th(cid:1269)c hi(cid:1227)n (cid:255)(cid:1223) có (cid:255)(cid:1133)(cid:1255)c t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n t(cid:1195)n s(cid:1237) xu(cid:1193)t hi(cid:1227)n c(cid:1259)a t(cid:1263). (cid:264)(cid:1195)u
vào c(cid:1259)a b(cid:1133)(cid:1247)c này là kho d(cid:1267) li(cid:1227)u báo (cid:255)(cid:76)(cid:1227)n t(cid:1265) online g(cid:1239)m : 700MB d(cid:1267) li(cid:1227)u báo Thanh
niên, 500MB d(cid:1267) li(cid:1227)u báo Ng(cid:1133)(cid:1249)i lao (cid:255)(cid:1245)ng và 700MB d(cid:1267) li(cid:1227)u báo S(cid:1203)c màu v(cid:259)n hóa.
(cid:264)(cid:1195)u ra s(cid:1217)(cid:3)(cid:255)(cid:1133)(cid:1255)c t(cid:1201)p tin t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n t(cid:1195)n s(cid:1237) xu(cid:1193)t hi(cid:1227)n t(cid:1263), th(cid:1237)ng kê (cid:255)(cid:1133)(cid:1255)c trên kho d(cid:1267) li(cid:1227)u
trên.
4.1.1.
Xây d(cid:1269)ng kho ng(cid:1267) li(cid:1227)u text t(cid:1263) báo (cid:255)(cid:76)(cid:1227)n t(cid:1265)
(ch(cid:1189)y ch(cid:1133)(cid:1131)ng trình html2txt.exe)
Ch(cid:1133)(cid:1131)ng trình Html2Txt s(cid:1217) trích xu(cid:1193)t các d(cid:1267) li(cid:1227)u text có ngh(cid:429)a trong kho d(cid:1267) li(cid:1227)u
báo online d(cid:1189)ng html, (cid:255)(cid:1223) có (cid:255)(cid:1133)(cid:1255)c kho d(cid:1267) li(cid:1227)u hoàn toàn thu(cid:1195)n text. (cid:264)ây là b(cid:1133)(cid:1247)c ti(cid:1221)n x(cid:1265)
lý và các t(cid:1201)p tin text (cid:255)(cid:1133)(cid:1255)c l(cid:1133)u v(cid:1247)i mã hoá UTF8.
Khi ch(cid:1189)y ch(cid:1133)(cid:1131)ng trình này, em (cid:255)ã s(cid:1265) d(cid:1257)ng 700MB d(cid:1267) li(cid:1227)u báo Thanh niên,
500MB d(cid:1267) li(cid:1227)u báo Ng(cid:1133)(cid:1249)i lao (cid:255)(cid:1245)ng và 700MB d(cid:1267) li(cid:1227)u báo S(cid:1203)c màu v(cid:259)n hóa. K(cid:1219)t qu(cid:1191)
xu(cid:1193)t ra kho(cid:1191)ng 120 MB d(cid:1267) li(cid:1227)u text thu(cid:1195)n túy.
44
Hình 4.1.1-13: Giao di(cid:847)n ch(cid:753)(cid:751)ng trình HTML2TXT
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
o (cid:264)(cid:1195)u vào: là th(cid:1133) m(cid:1257)c ch(cid:1261)a d(cid:1267) li(cid:1227)u kho d(cid:1267) li(cid:1227)u .html (có th(cid:1223) ch(cid:1261)a th(cid:1133) m(cid:1257)c con nhi(cid:1221)u c(cid:1193)p).
o (cid:264)(cid:1195)u ra: N(cid:1131)i l(cid:1133)u toàn b(cid:1245) n(cid:1245)i dung tách (cid:255)(cid:1133)(cid:1255)c (các n(cid:1245)i dung l(cid:1133)u trong các file .txt cùng tên file .html (cid:255)(cid:1133)a vào).
o Do d(cid:1267) li(cid:1227)u web (cid:255)(cid:1133)a vào r(cid:1193)t (cid:255)a d(cid:1189)ng và không chu(cid:1197)n nên ch(cid:1133)(cid:1131)ng trình không th(cid:1223) tìm (cid:255)(cid:1133)(cid:1255)c tag n(cid:1245)i dung trong t(cid:1193)t c(cid:1191) các tr(cid:1133)(cid:1249)ng h(cid:1255)p. (cid:264)(cid:1223) ch(cid:1133)(cid:1131)ng trình ho(cid:1189)t (cid:255)(cid:1245)ng (cid:255)úng thì khi ti(cid:1219)n hành tách n(cid:1245)i dung cho các file .html thì ng(cid:1133)(cid:1249)i dùng c(cid:1195)n ch(cid:1229) rõ tag ch(cid:1261)a n(cid:1245)i dung chính trong v(cid:259)n b(cid:1191)n .html b(cid:1205)ng cách c(cid:1193)u hình cho ch(cid:1133)(cid:1131)ng trình.
Hình 4.1.1-14: (cid:38)(cid:813)u hình c(cid:879)a ch(cid:753)(cid:751)ng trình HTML2TXT
(cid:38)(cid:1193)u hình ch(cid:1133)(cid:1131)ng trình
o (cid:38)(cid:1131) b(cid:1191)n: các tag ch(cid:1261)a ph(cid:1195)n n(cid:1245)i dung c(cid:1195)n trích ra o Nâng cao: s(cid:1265) d(cid:1257)ng khi có thu(cid:1245)c tính class c(cid:1259)a tag t(cid:1133)(cid:1131)ng (cid:1261)ng bên ph(cid:1195)n c(cid:1131) b(cid:1191)n
o Gi(cid:1191)i mã NCR c(cid:1259)a html: dùng (cid:255)(cid:1223) chuy(cid:1223)n ph(cid:1195)n text (cid:255)(cid:1231)nh d(cid:1189)ng NCR sang Unicode. Ví d(cid:877) 4-1: TÔI Ł TÔI
45
o Charset: charset mà trang web s(cid:1265) d(cid:1257)ng; thông th(cid:1133)(cid:1249)ng, m(cid:1243)i trang web (cid:255)(cid:1231)nh ngh(cid:429)a charset mà nó s(cid:1265) d(cid:1257)ng trong tag sau (cid:1251)(cid:3)(cid:255)(cid:1195)u html.
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
Hi(cid:1227)n ch(cid:1133)(cid:1131)ng trình h(cid:1243) tr(cid:1255) 2 charset hay s(cid:1265) d(cid:1257)ng t(cid:1189)i Vi(cid:1227)t Nam là utf-8 và windows-1252
Ta c(cid:1195)n ph(cid:1191)i (cid:255)(cid:1231)nh charset (cid:255)úng (cid:255)(cid:1223) vi(cid:1227)c (cid:255)(cid:1233)c d(cid:1267) li(cid:1227)u t(cid:1263) html (cid:255)úng, chính xác (n(cid:1219)u ch(cid:1233)n sai charset thì vi(cid:1227)c (cid:255)(cid:1233)c html s(cid:1217) b(cid:1231) thi(cid:1219)u 1 s(cid:1237) kí t(cid:1269))
(cid:47)(cid:1133)u ý quan tr(cid:1233)ng : (cid:38)(cid:1193)u hình c(cid:1259)a 1 s(cid:1237) trang web chính nh(cid:1133) sau: (Trong d(cid:1193)u ngo(cid:1211)c () là ph(cid:1195)n nâng cao t(cid:1133)(cid:1131)ng (cid:1261)ng c(cid:1259)a tag) 1. www.thanhnien.com.vn :
(ko gi(cid:1191)i mã NCR _ charset : utf8) div(newslead) div(newsbody)
2. www.tuoitre.com.vn
(ko gi(cid:1191)i mã NCR _ charset : utf8) p(ptitle) p(phead) p(pbody) p(pquestion) p(panswer)
3. vnca.cand.com.vn
(có gi(cid:1191)i mã NCR _ charset : utf8) span(main_title) span(sapeau_box) span(text_box)
4. www.nld.com.vn (ko gi(cid:1191)i mã NCR _ charset : utf8)
->p(msonormal) td(td_read)->p(none) (-> : p là tag con c(cid:1259)a td)
5. www.baobinhdinh.com.vn
46
(ko gi(cid:1191)i mã NCR _ charset : utf8) p(msonormal) p(msobodytext)
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
6. www.baocantho.com.vn
(có gi(cid:1191)i mã NCR _ charset : windows_1252) td(news_title) td(news_body)
7. sacmauvanhoa
(ko gi(cid:1191)i mã NCR _ charset : utf8) p(dong) p(msonormal)
47
Hình 4.1.1-15 : M(cid:865)t trang báo thanh niên
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
Hình 4.1.1-16 : (cid:39)(cid:887) li(cid:847)u (cid:255)(cid:753)(cid:875)c tách t(cid:883) trang báo Thanh niên
4.1.2. Tách câu
(ch(cid:1189)y ch(cid:1133)(cid:1131)ng trình XDNguLieu.exe)
(cid:55)(cid:1189)i b(cid:1133)(cid:1247)c này, ta th(cid:1269)c hi(cid:1227)n vi(cid:1227)c t(cid:1189)o 1 kho d(cid:1267) li(cid:1227)u chu(cid:1197)n ti(cid:1227)n cho vi(cid:1227)c x(cid:1265)
lý sau này. Kho d(cid:1267) li(cid:1227)u này theo chu(cid:1197)n (cid:255)(cid:1133)(cid:1255)c mô t(cid:1191) chi ti(cid:1219)t trong ph(cid:1195)n PH(cid:1256)
(cid:47)(cid:1256)C. 1 cách (cid:255)(cid:1131)n gi(cid:1191)n, kho này g(cid:1239)m nhi(cid:1221)u câu thu(cid:1245)c cùng 1 l(cid:429)nh v(cid:1269)c, m(cid:1243)i câu
(cid:255)(cid:1133)(cid:1255)c gán 1 s(cid:1237) ID riêng. K(cid:1219)t qu(cid:1191) thu (cid:255)(cid:1133)(cid:1255)c, v(cid:1247)i kho text (cid:1251) b(cid:1133)(cid:1247)c trên là 1 kho câu
48
150MB.
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
Hình 4.1.2-17: Giao di(cid:847)n ch(cid:753)(cid:751)ng trình Tách Câu
o (cid:55)(cid:1263) vi(cid:1219)t t(cid:1203)t : Dùng (cid:255)(cid:1223)(cid:3)(cid:255)(cid:1231)nh ngh(cid:429)a các t(cid:1263) vi(cid:1219)t t(cid:1203)t thông d(cid:1257)ng có ch(cid:1261)a d(cid:1193)u ch(cid:1193)m câu (. ! ?) (cid:255)(cid:1223) lo(cid:1189)i b(cid:1235) b(cid:1247)t các tr(cid:1133)(cid:1249)ng h(cid:1255)p gây nh(cid:1195)m l(cid:1199)n khi tách câu.
Hình 4.1.2-18: (cid:55)(cid:883) vi(cid:839)t t(cid:823)t cung c(cid:813)p cho ch(cid:753)(cid:751)ng trình Tách Câu
L(cid:1133)u ý : nên (cid:255)(cid:1223) 2 tr(cid:1133)(cid:1249)ng h(cid:1255)p nh(cid:1133) : Mr.(không có kho(cid:1191)ng tr(cid:1203)ng (cid:255)(cid:1205)ng sau) và Mr. (có kho(cid:1191)ng tr(cid:1203)ng (cid:255)(cid:1205)ng sau) thì vi(cid:1227)c ch(cid:1189)y ch(cid:1133)(cid:1131)ng trình s(cid:1217) t(cid:1237)t và chính xác h(cid:1131)n
o ID : nhãn (cid:255)(cid:1231)nh danh duy nh(cid:1193)t cho 1 câu trong t(cid:1201)p tin, g(cid:1239)m các tr(cid:1133)(cid:1249)ng : Ngày Tháng N(cid:259)m Ngu(cid:859)n g(cid:857)c (cid:264)(cid:851)nh danh Ch(cid:879)(cid:3)(cid:255)(cid:841)
49
o (cid:264)(cid:1195)u vào : Th(cid:1133) m(cid:1257)c ch(cid:1261)a các file n(cid:1245)i dung text (cid:255)ã tách (cid:255)(cid:1133)(cid:1255)c t(cid:1263) các file .html (th(cid:1133) m(cid:1257)c có th(cid:1223) có nhi(cid:1221)u c(cid:1193)p).
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
o (cid:46)(cid:1219)t xu(cid:1193)t : File ch(cid:1261)a t(cid:1193)t c(cid:1191) các câu v(cid:259)n b(cid:1191)n (cid:255)ã (cid:255)(cid:1133)(cid:1255)c tách t(cid:1263) th(cid:1133) m(cid:1257)c (cid:255)(cid:1195)u vào và gán ID (hình d(cid:1133)(cid:1247)i)
Hình 4.1.2-19: (cid:49)(cid:865)i dung file k(cid:839)t xu(cid:813)t c(cid:879)a ch(cid:753)(cid:751)ng trình Tách Câu
.
4.1.3. Tách t(cid:1263) và th(cid:1237)ng kê
(ch(cid:1189)y ch(cid:1133)(cid:1131)ng trình Tach tu.exe)
V(cid:1247)i kho d(cid:1267) li(cid:1227)u chu(cid:1197)ng (cid:255)(cid:1133)(cid:1255)c t(cid:1189)o ra (cid:1251) b(cid:1133)(cid:1247)c trên, ta b(cid:1203)t (cid:255)(cid:1195)u dùng ph(cid:1133)(cid:1131)ng pháp
tách t(cid:1263) LRMM (cid:255)(cid:1223) th(cid:1237)ng kê t(cid:1195)n s(cid:1237) xu(cid:1193)t hi(cid:1227)n c(cid:1259)a t(cid:1263). Dùng 150 MB d(cid:1267) li(cid:1227)u kho câu
trên, em th(cid:1237)ng kê trên kho(cid:1191)ng g(cid:1195)n 18 tri(cid:1227)u l(cid:1133)(cid:1255)t t(cid:1263), và h(cid:1131)n 26400 t(cid:1263) khác nhau (cid:255)ã
50
xu(cid:1193)t hi(cid:1227)n.
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
v Th(cid:1133) m(cid:1257)c ngu(cid:1239)n : Th(cid:1133) m(cid:1257)c ch(cid:1261)a các câu (cid:255)ã (cid:255)(cid:1133)(cid:1255)c tách và gán nhãn, g(cid:1239)m các
Hình 4.1.3-20: Giao di(cid:847)n module tách t(cid:883)
(cid:87)(cid:1201)p tin cùng l(cid:429)nh v(cid:1269)c (nh(cid:1133) pháp lu(cid:1201)t); không quan tâm kho d(cid:1267) li(cid:1227)u này cùng hay
khác ngu(cid:1239)n g(cid:1237)c
v (cid:55)(cid:1201)p tin t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n: File t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n (cid:255)(cid:1133)(cid:1255)c th(cid:1195)y cung c(cid:1193)p s(cid:1209)n và (cid:255)(cid:1133)(cid:1255)c ch(cid:1229)nh s(cid:1265)a theo
Hình4.1.3-21: (cid:49)(cid:865)i dung t(cid:821)p tin th(cid:753) m(cid:877)c ngu(cid:859)n
51
yêu c(cid:1195)u s(cid:1265) d(cid:1257)ng riêng c(cid:1259)a nhóm.
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
v Xu(cid:1193)t t(cid:1201)p tin ng(cid:1267) li(cid:1227)u: File l(cid:1133)u các t(cid:1263) tách (cid:255)(cid:1133)(cid:1255)c và t(cid:1195)n su(cid:1193)t xu(cid:1193)t hi(cid:1227)n c(cid:1259)a các t(cid:1263)
Hình 4.1.3-22: (cid:49)(cid:865)i dung t(cid:821)p tin t(cid:883)(cid:3)(cid:255)(cid:76)(cid:843)n
(cid:255)(cid:1133)(cid:1255)c tính theo công th(cid:1261)c –lg(n/N)
Hình 4.1.3-23: (cid:49)(cid:865)i dung t(cid:821)p tin k(cid:839)t qu(cid:811)
4.2. (cid:55)(cid:1189)o t(cid:1201)p tin t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n chính
(ch(cid:1189)y ch(cid:1133)(cid:1131)ng trình RutGon.exe)
(cid:55)(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n chính, là t(cid:1263)(cid:3) (cid:255)(cid:76)(cid:1223)n (cid:255)(cid:1133)(cid:1255)c dùng (cid:255)(cid:1223) tra c(cid:1261)u vi(cid:1227)c chuy(cid:1223)n (cid:255)(cid:1241)i l(cid:1195)n (cid:255)(cid:1195)u,
52
dùng (cid:255)(cid:1223) ánh x(cid:1189) 1-1 t(cid:1263) t(cid:1263) không d(cid:1193)u sang t(cid:1263) có d(cid:1193)u. Trong ph(cid:1195)n cài (cid:255)(cid:1211)t, t(cid:1263)(cid:3) (cid:255)(cid:76)(cid:1223)n
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
chính có tên là TuDienChinh.txt. T(cid:1201)p tin t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n chính này, (cid:255)(cid:1133)(cid:1255)c t(cid:1189)o ra nh(cid:1249) vào t(cid:1201)p
tin th(cid:1237)ng kê t(cid:1263)(cid:3)(cid:1251) b(cid:1133)(cid:1247)c trên.
Hình 4.1.3-24: Giao di(cid:847)n ch(cid:753)(cid:751)ng trình t(cid:809)o t(cid:883)(cid:3)(cid:255)(cid:76)(cid:843)n chính
o (cid:55)(cid:1201)p tin ngu(cid:1239)n : t(cid:1201)p tin ch(cid:1261)a t(cid:1195)n su(cid:1193)t các t(cid:1263)(cid:3)(cid:255)ã (cid:255)(cid:1133)(cid:1255)c th(cid:1237)ng kê (cid:1251) b(cid:1133)(cid:1247)c trên.
o Th(cid:1133) m(cid:1257)c th(cid:1237)ng kê : th(cid:1133) m(cid:1257)c ch(cid:1261)a kho ng(cid:1267) li(cid:1227)u. (cid:264)ây chính là Th(cid:1133) m(cid:1257)c ngu(cid:1239)n
(cid:70)(cid:1259)a ph(cid:1195)n Tách t(cid:1263) và th(cid:1237)ng kê
o Th(cid:1133) m(cid:1257)c k(cid:1219)t xu(cid:1193)t : th(cid:1133) m(cid:1257)c s(cid:1217) ch(cid:1261)a k(cid:1219)t qu(cid:1191) c(cid:1259)a ch(cid:1133)(cid:1131)ng trình. Ngoài vi(cid:1227)c t(cid:1189)o
ra t(cid:1201)p tin TuDienChinh.txt, ch(cid:1133)(cid:1131)ng trình còn t(cid:1189)o ra thêm 2 t(cid:1201)p tin ph(cid:1257) là
TuDienPhanLop.txt và KhoCau.txt là (cid:255)(cid:1195)u vào cho b(cid:1133)(cid:1247)c sau.
§ TuDienPhanLop.txt : t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n này ch(cid:1261)a các t(cid:1263) không d(cid:1193)u, m(cid:1243)i t(cid:1263) không
(cid:71)(cid:1193)u có 1 hay nhi(cid:1221)u t(cid:1263) có d(cid:1193)u.
§ KhoCau.txt : ch(cid:1261)a t(cid:1193)t c(cid:1191) các câu có s(cid:1269) xu(cid:1193)t hi(cid:1227)n c(cid:1259)a các t(cid:1263) có d(cid:1193)u trong
53
TuDienPhanLop.txt
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
Hình 4.1.3-25 : Trích 1 ph(cid:815)n TuDienChinh.txt
54
Hình 4.1.3-26 : Trích 1 ph(cid:815)n TuDienPhanLop.txt
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
Hình 4.1.3-27: Trích 1 ph(cid:815)n KhoCau.txt
4.3. (cid:55)(cid:1189)o t(cid:1201)p tin t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n c(cid:1257)m t(cid:1263)
(cid:55)(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n c(cid:1257)m t(cid:1263)(cid:3)(cid:255)(cid:1133)(cid:1255)c s(cid:1265) d(cid:1257)ng (cid:255)(cid:1223) tra c(cid:1261)u và hi(cid:1227)u ch(cid:1229)nh l(cid:1189)i các t(cid:1263) không d(cid:1193)u
(cid:255)ã chuy(cid:1223)n sang có d(cid:1193)u, d(cid:1269)a trên vi(cid:1227)c xét s(cid:1269) xu(cid:1193)t hi(cid:1227)n c(cid:1259)a c(cid:1257)m t(cid:1263) trong 1 ph(cid:1189)m
vi nh(cid:1193)t (cid:255)(cid:1231)nh (xem chi ti(cid:1219)t trong ph(cid:1195)n Mô hình). Trong ph(cid:1195)n cài (cid:255)(cid:1211)t, t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n c(cid:1257)m
(cid:87)(cid:1263) có tên là CumTu.txt và (cid:255)(cid:1133)(cid:1255)c t(cid:1189)o ra sau 2 b(cid:1133)(cid:1247)c sau :
4.3.1. (cid:55)(cid:1189)o kho d(cid:1267) li(cid:1227)u tinh gi(cid:1191)n m(cid:1247)i
55
(ch(cid:1189)y ch(cid:1133)(cid:1131)ng trình KhoDuLieu.exe)
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
Hình 4.3.1-28: Giao di(cid:847)n ch(cid:753)(cid:751)ng trình t(cid:809)o kho d(cid:887) li(cid:847)u tinh gi(cid:811)n
Thông qua b(cid:1133)(cid:1247)c trung gian này, giúp cho vi(cid:1227)c t(cid:1189)o t(cid:1201)p tin CumTu.txt (cid:255)(cid:1133)(cid:1255)c d(cid:1225)
dàng và nhanh chóng h(cid:1131)n.
o (cid:55)(cid:1201)p tin t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n : t(cid:1201)p tin t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n t(cid:1263) ti(cid:1219)ng Vi(cid:1227)t
o (cid:55)(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n phân lo(cid:1189)i : là TuDienPhanLop.txt (cid:255)(cid:1133)(cid:1255)c t(cid:1189)o ra (cid:1251) b(cid:1133)(cid:1247)c trên
o Kho câu : là KhoCau.txt (cid:255)(cid:1133)(cid:1255)c t(cid:1189)o ra (cid:1251) b(cid:1133)(cid:1247)c trên.
o Th(cid:1133) m(cid:1257)c k(cid:1219)t xu(cid:1193)t : th(cid:1133) m(cid:1257)c ch(cid:1261)a k(cid:1219)t qu(cid:1191) ch(cid:1133)(cid:1131)ng trình. Sau khi ch(cid:1189)y ch(cid:1133)(cid:1131)ng
trình này, ch(cid:1133)(cid:1131)ng trình s(cid:1217) t(cid:1189)o ra 1 s(cid:1237) l(cid:1133)(cid:1255)ng l(cid:1247)n th(cid:1133) m(cid:1257)c (tên th(cid:1133) m(cid:1257)c là “_” + t(cid:1263)
không d(cid:1193)u), trong th(cid:1133) m(cid:1257)c này s(cid:1217) ch(cid:1261)a các t(cid:1201)p tin text (tên t(cid:1201)p tin là “_” + t(cid:1263) có
56
(cid:71)(cid:1193)u), m(cid:1243)i t(cid:1201)p tin s(cid:1217) ch(cid:1261)a t(cid:1193)t c(cid:1191) các câu mà có s(cid:1269) xu(cid:1193)t hi(cid:1227)n c(cid:1259)a t(cid:1263)(cid:3)(cid:255)ó.
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
Hình 4.3.1-29 : Trích 1 ph(cid:815)n th(cid:753) m(cid:877)c k(cid:839)t xu(cid:813)t
57
Hình 4.3.1-30 : Th(cid:753) m(cid:877)c con _a trong th(cid:753) m(cid:877)c k(cid:839)t xu(cid:813)t
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
4.3.2. (cid:55)(cid:1189)o t(cid:1201)p tin t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n c(cid:1257)m t(cid:1263)
(ch(cid:1189)y ch(cid:1133)(cid:1131)ng trình ThongKeTu.txt)
Hình 4.3.2-31: Giao di(cid:847)n ch(cid:753)(cid:751)ng trình t(cid:809)o t(cid:821)p tin c(cid:877)m t(cid:883)
o (cid:55)(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n : t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n các t(cid:1263) ti(cid:1219)ng Vi(cid:1227)t
o (cid:55)(cid:1263)(cid:3) (cid:255)(cid:76)(cid:1223)n phân l(cid:1247)p : là TuDienPhanLop.txt (cid:255)(cid:1133)(cid:1255)c t(cid:1189)o ra (cid:1251) b(cid:1133)(cid:1247)c t(cid:1189)o
TuDienChinh.txt
o (cid:55)(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n LLOCE : ch(cid:1261)a 1 s(cid:1237) c(cid:1257)m t(cid:1263) nh(cid:1193)t (cid:255)(cid:1231)nh … n(cid:1219)u có ngu(cid:1239)n d(cid:1267) li(cid:1227)u c(cid:1257)m t(cid:1263)
(cid:87)(cid:1237)t h(cid:1131)n, ch(cid:1133)(cid:1131)ng trình s(cid:1217) ch(cid:1189)y t(cid:1237)t h(cid:1131)n.
o Kho d(cid:1267) li(cid:1227)u : là Th(cid:1133) m(cid:1257)c k(cid:1219)t xu(cid:1193)t (cid:1251) b(cid:1133)(cid:1247)c trên.
4.4. Ch(cid:1133)(cid:1131)ng trình chính
Ch(cid:1261)c n(cid:259)ng thêm d(cid:1193)u và xoá d(cid:1193)u (cid:255)(cid:1133)(cid:1255)c tích h(cid:1255)p trong 1 dll, giúp vi(cid:1227)c tri(cid:1223)n khai
ch(cid:1133)(cid:1131)ng trình (cid:255)(cid:1133)(cid:1255)c d(cid:1225) dàng và thu(cid:1201)n ti(cid:1227)n h(cid:1131)n. Vi(cid:1227)c s(cid:1265) d(cid:1257)ng dll này r(cid:1193)t (cid:255)(cid:1131)n gi(cid:1191)n, ch(cid:1229)
(cid:70)(cid:1195)n 1 dll và 1 th(cid:1133) m(cid:1257)c ch(cid:1261)a các t(cid:1201)p tin t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n c(cid:1195)n thi(cid:1219)t cho ch(cid:1133)(cid:1131)ng trình (\TuDien)
58
là ch(cid:1261)c n(cid:259)ng Thêm d(cid:1193)u và Xoá d(cid:1193)u s(cid:1209)n sàng ho(cid:1189)t (cid:255)(cid:1245)ng. V(cid:1247)i dll trên, em phát tri(cid:1223)n
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
1 s(cid:1237) ch(cid:1133)(cid:1131)ng trình chính sau (cid:255)ây, v(cid:1247)i giao di(cid:1227)n thân thi(cid:1227)n, d(cid:1225) s(cid:1265) d(cid:1257)ng, giúp ng(cid:1133)(cid:1249)i
dùng d(cid:1225) dàng thêm d(cid:1193)u theo nhu c(cid:1195)u s(cid:1265) d(cid:1257)ng c(cid:1259)a h(cid:1233).
4.4.1. Ch(cid:1133)(cid:1131)ng trình VietEditor
Hình 4.4.1-32: Giao di(cid:847)n ch(cid:753)(cid:751)ng trình chính VietEditor
(cid:264)ây là 1 trình so(cid:1189)n th(cid:1191)o v(cid:259)n b(cid:1191)n (cid:255)(cid:1131)n gi(cid:1191)n, v(cid:1247)i các ch(cid:1261)c n(cid:259)ng t(cid:1133)(cid:1131)ng t(cid:1269) Notepad
(cid:70)(cid:1259)a Windows, nh(cid:1133)ng nó có thêm ch(cid:1261)c n(cid:259)ng Thêm d(cid:1193)u và Xoá d(cid:1193)u.
Ch(cid:1133)(cid:1131)ng trình (cid:255)(cid:1133)(cid:1255)c phát tri(cid:1223)n (cid:255)(cid:1223) ki(cid:1223)m tra mô hình (cid:255)(cid:1133)(cid:1255)c (cid:255)(cid:1133)a ra. Ch(cid:1261)c n(cid:259)ng
Thêm d(cid:1193)u thanh (F7) và Xoá d(cid:1193)u thanh (F6) trong menu Công c(cid:1257) giúp thêm d(cid:1193)u và
xoá d(cid:1193)u cho v(cid:259)n b(cid:1191)n.
Trong ch(cid:1133)(cid:1131)ng trình, do vi(cid:1227)c Ti(cid:1221)n x(cid:1265) lý, nên (cid:255)(cid:1231)nh d(cid:1189)ng c(cid:1259)a v(cid:259)n b(cid:1191)n không gi(cid:1267)
59
nh(cid:1133) c(cid:458)(cid:3)(cid:255)(cid:1133)(cid:1255)c.
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
4.4.2. Ch(cid:1133)(cid:1131)ng trình thêm d(cid:1193)u qua Clipboard
(cid:264)ây là 1 h(cid:1133)(cid:1247)ng phát tri(cid:1223)n ti(cid:1227)n l(cid:1255)i cho ch(cid:1261)c n(cid:259)ng thêm d(cid:1193)u ti(cid:1219)ng Vi(cid:1227)t.
(cid:57)(cid:1247)i vi(cid:1227)c s(cid:1265) d(cid:1257)ng t(cid:1263) không d(cid:1193)u nhi(cid:1221)u trên Internet nh(cid:1133) chat qua Y!M, (cid:255)(cid:1233)c các lá
mail (cid:255)(cid:76)(cid:1227)n t(cid:1265) … thì ti(cid:1227)n ích này s(cid:1217) giúp ng(cid:1133)(cid:1249)i s(cid:1265) d(cid:1257)ng ngay t(cid:1261)c thì. Ng(cid:1133)(cid:1249)i dùng
ch(cid:1229) c(cid:1195)n copy (cid:255)(cid:82)(cid:1189)n v(cid:259)n b(cid:1191)n không d(cid:1193)u c(cid:1195)n thêm d(cid:1193)u, ngay l(cid:1201)p t(cid:1261)c, ch(cid:1133)(cid:1131)ng trình s(cid:1217)
th(cid:1269)c hi(cid:1227)n vi(cid:1227)c chuy(cid:1223)n (cid:255)(cid:82)(cid:1189)n v(cid:259)n b(cid:1191)n (cid:255)ó thành có d(cid:1193)u và hi(cid:1223)n th(cid:1231) cho ng(cid:1133)(cid:1249)i dùng
xem.
60
Hình 4.4.2-33: Giao di(cid:847)n ch(cid:753)(cid:751)ng trình chính thêm d(cid:813)u Clipboard
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
61
Hình 4.4.2-34: Test ch(cid:753)(cid:751)ng trình thêm d(cid:813)u Clipboard
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
4.5. Th(cid:1265) nghi(cid:1227)m
(cid:57)(cid:1247)i b(cid:1245) d(cid:1267) li(cid:1227)u th(cid:1265) là các v(cid:259)n b(cid:1191)n ng(cid:1199)u nhiên m(cid:1247)i nh(cid:1193)t l(cid:1193)y t(cid:1263) trang web
www.tuoitre.com.vn, ta so sánh ch(cid:1133)(cid:1131)ng trình VietEditor v(cid:1247)i VietPad và AMPad, ta thu
(cid:255)(cid:1133)(cid:1255)c k(cid:1219)t qu(cid:1191) khá kh(cid:1191) quan sau (dùng ch(cid:1133)(cid:1131)ng trình test, không test b(cid:1205)ng tay) :
(cid:55)(cid:1241)ng s(cid:1237) ti(cid:1219)ng T(cid:1241)ng s(cid:1237) ti(cid:1219)ng (cid:255)úng T(cid:1229) l(cid:1227)(cid:3)(cid:255)úng
8275 7191 86,9% VietEditor
8275 7046 85,15% VietPad
62
8275 7156 86,47% AMPad
Ch(cid:1133)(cid:1131)ng 5. (cid:46)(cid:1218)T QU(cid:1190), H(cid:1132)(cid:1246)NG
PHÁT TRI(cid:1222)N
Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u
5.1. (cid:43)(cid:1189)n ch(cid:1219) và h(cid:1133)(cid:1247)ng phát tri(cid:1223)n
Bài toán thêm d(cid:1193)u ti(cid:1219)ng Vi(cid:1227)t vào v(cid:259)n b(cid:1191)n không d(cid:1193)u là bài toán m(cid:1247)i, còn (cid:255)ang hoàn
thi(cid:1227)n d(cid:1195)n v(cid:1221) mô hình c(cid:458)ng nh(cid:1133) cách th(cid:1269)c hi(cid:1227)n. Hi(cid:1227)n nay, mô hình th(cid:1133)(cid:1249)ng dùng cho bài
toán này là th(cid:1237)ng kê t(cid:1195)n s(cid:1237) xu(cid:1193)t hi(cid:1227)n c(cid:1259)a t(cid:1263), (cid:255)(cid:1239)ng th(cid:1249)i, tu(cid:484) theo m(cid:1243)i tác gi(cid:1191) mà có thêm
nh(cid:1267)ng bi(cid:1219)n (cid:255)(cid:1241)i, thu(cid:1201)t gi(cid:1191)i khác nhau giúp cho vi(cid:1227)c thêm d(cid:1193)u (cid:255)(cid:1133)(cid:1255)c chính xác h(cid:1131)n.
Qua lu(cid:1201)n v(cid:259)n này, mô hình th(cid:1237)ng kê t(cid:1195)n s(cid:1237) xu(cid:1193)t hi(cid:1227)n c(cid:1259)a t(cid:1263), kèm theo ph(cid:1133)(cid:1131)ng pháp
tách t(cid:1263) không d(cid:1193)u LRMM và s(cid:1265) d(cid:1257)ng thêm t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n c(cid:1257)m t(cid:1263), kh(cid:1191) n(cid:259)ng chính xác c(cid:1259)a mô
hình là t(cid:1133)(cid:1131)ng (cid:255)(cid:1237)i cao. Tuy nhiên, ph(cid:1191)i nói là mô hình còn nh(cid:1267)ng h(cid:1189)n ch(cid:1219), và c(cid:458)ng là
nh(cid:1267)ng h(cid:1133)(cid:1247)ng m(cid:1251) mà lu(cid:1201)n v(cid:259)n c(cid:1195)n ph(cid:1191)i ti(cid:1219)p t(cid:1257)c phát tri(cid:1223)n trong th(cid:1249)i gian t(cid:1247)i nh(cid:1205)m t(cid:259)ng
(cid:255)(cid:1245) chính xác lên cao h(cid:1131)n n(cid:1267)a.
Th(cid:1261) nh(cid:1193)t, c(cid:1195)n ph(cid:1191)i có nh(cid:1267)ng l(cid:429)nh v(cid:1269)c chuyên môn cho mô hình. Trong th(cid:1249)i (cid:255)(cid:1189)i
chuyên môn hoá nh(cid:1133) hi(cid:1227)n nay, vi(cid:1227)c s(cid:1265) d(cid:1257)ng ch(cid:1133)(cid:1131)ng trình trong nh(cid:1267)ng l(cid:429)nh v(cid:1269)c chuyên
môn là c(cid:1195)n thi(cid:1219)t, (cid:255)(cid:1239)ng th(cid:1249)i, giúp cho ch(cid:1133)(cid:1131)ng trình t(cid:259)ng thêm (cid:255)(cid:1245) chính xác. Vi(cid:1227)c thêm
ch(cid:1261)c n(cid:259)ng này c(cid:458)ng không (cid:1191)nh h(cid:1133)(cid:1251)ng nhi(cid:1221)u (cid:255)(cid:1219)n mô hình. (cid:1250)(cid:3)(cid:255)ây, do th(cid:1265) nghi(cid:1227)m mô
hình m(cid:1247)i nên b(cid:1133)(cid:1247)c này (cid:255)(cid:1133)(cid:1255)c b(cid:1235) qua.
Th(cid:1261) hai, áp d(cid:1257)ng mô hình cho ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u online. Vi(cid:1227)c thêm d(cid:1193)u online
ngoài vi(cid:1227)c t(cid:1189)o tr(cid:1269)c quan cho ng(cid:1133)(cid:1249)i dùng, ngoài ra, có th(cid:1223) t(cid:1189)o ra 1 ph(cid:1133)(cid:1131)ng pháp gõ m(cid:1247)i,
giúp vi(cid:1227)c gõ ti(cid:1219)ng Vi(cid:1227)t (cid:255)(cid:1133)(cid:1255)c nhanh h(cid:1131)n.
Th(cid:1261) ba, mô hình có th(cid:1223) áp d(cid:1257)ng các ph(cid:1133)(cid:1131)ng pháp tách t(cid:1263) chính xác h(cid:1131)n nh(cid:1133) WFST
(cid:255)(cid:1133)(cid:1255)c s(cid:1265) d(cid:1257)ng trong mô hình c(cid:1259)a VnMark … (cid:255)(cid:1223)(cid:3)(cid:255)(cid:1189)t (cid:255)(cid:1133)(cid:1255)c (cid:255)(cid:1245) chính xác cao h(cid:1131)n n(cid:1267)a.
5.2. (cid:46)(cid:1219)t lu(cid:1201)n
Tuy mô hình không có (cid:255)(cid:76)(cid:1223)m gì m(cid:1247)i n(cid:1241)i b(cid:1201)t, nh(cid:1133)ng qua vi(cid:1227)c l(cid:1133)u tr(cid:1267) t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n c(cid:1257)m t(cid:1263)
(cid:255)(cid:1223) chuy(cid:1223)n (cid:255)(cid:1241)i t(cid:1263) linh ho(cid:1189)t thì (cid:255)ây là h(cid:1133)(cid:1247)ng phát tri(cid:1223)n r(cid:1193)t có ti(cid:1221)m n(cid:259)ng. V(cid:1247)i 1 t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n
(cid:70)(cid:1257)m t(cid:1263) chính xác và (cid:255)(cid:1195)y (cid:255)(cid:1259) h(cid:1131)n, mô hình s(cid:1217) ho(cid:1189)t (cid:255)(cid:1245)ng t(cid:1237)t h(cid:1131)n n(cid:1267)a. Ch(cid:1261)c n(cid:259)ng Thêm
(cid:71)(cid:1193)u t(cid:1269)(cid:3)(cid:255)(cid:1245)ng(cid:3)(cid:255)(cid:1133)(cid:1255)c phát tri(cid:1223)n thành 1 DLL, cho phép tích h(cid:1255)p ch(cid:1261)c n(cid:259)ng này vào b(cid:1193)t k(cid:484)
64
trình so(cid:1189)n th(cid:1191)o nào 1 cách nhanh chóng.
TÀI LI(cid:1226)U THAM KH(cid:1190)O
[1]. Ti(cid:1219)n s(cid:429)(cid:3)(cid:264)inh (cid:264)(cid:76)(cid:1221)n. Giáo trình X(cid:1265) lý ngôn ng(cid:1267) t(cid:1269) nhiên, Khoa Công ngh(cid:1227)
Thông tin, (cid:264)(cid:1189)i h(cid:1233)c Khoa h(cid:1233)c T(cid:1269) nhiên thành ph(cid:1237) H(cid:1239) Chí Minh, Tháng
12 – 2004.
[2]. Nguy(cid:1225)n V(cid:259)n Toàn. T(cid:1269)(cid:3) (cid:264)(cid:1245)ng Gán D(cid:1193)u Thanh Ti(cid:1219)ng Vi(cid:1227)t – Trung tâm
Phát tri(cid:1223)n Công ngh(cid:1227) Thông tin, (cid:264)(cid:1189)i h(cid:1233)c Qu(cid:1237)c gia Thành ph(cid:1237) H(cid:1239) Chí
Minh.
[3]. Hoàng V(cid:259)n Hành – (cid:264)inh (cid:264)(cid:76)(cid:1221)n (1999), “T(cid:1263) ti(cid:1219)ng Vi(cid:1227)t : Khái ni(cid:1227)m – nh(cid:1201)n
di(cid:1227)n – ranh gi(cid:1247)i”, Bài ti(cid:1223)u lu(cid:1201)n môn h(cid:1233)c “T(cid:1263) v(cid:1269)ng h(cid:1233)c”, L(cid:1247)p Cao h(cid:1233)c
Ngôn ng(cid:1267) h(cid:1233)c.
[4]. Hoàng Phê (1998), T(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n ti(cid:1219)ng Vi(cid:1227)t, Trung tâm t(cid:1263) di(cid:1223)n h(cid:1233)c, NXB (cid:264)à
(cid:49)(cid:1207)ng.
[5]. Dien Dinh, Kiem Hoang, Toan Nguyen Van (2001), “Vietnamese Word Segmentation”, Proceedings of NLPRS’01 (The 6th Natural Language
Processing Pacific Rim Symposium), Tokyo, Japan, 11/2001, pg. 749-756
[6]. (cid:57)(cid:259)n Chí Nam, lu(cid:1201)n v(cid:259)n c(cid:1265) nhân tin h(cid:1233)c khoá 1999-2003, “X(cid:1265) lý ng(cid:1267)
ngh(cid:429)a trong h(cid:1227) d(cid:1231)ch t(cid:1269)(cid:3)(cid:255)(cid:1245)ng Anh –Vi(cid:1227)t cho các tài li(cid:1227)u tin h(cid:1233)c”, pg. 27-
30
[7]. Nguy(cid:1225)n Thái Ng(cid:1233)c Duy, lu(cid:1201)n v(cid:259)n c(cid:1265) nhân tin h(cid:1233)c khoá 2000-2004, “Xây
(cid:71)(cid:1269)ng ch(cid:1133)(cid:1131)ng trình b(cid:1203)t l(cid:1243)i chính t(cid:1191) ti(cid:1219)ng Vi(cid:1227)t và (cid:255)(cid:1221) ngh(cid:1231) t(cid:1263) thay th(cid:1219) cho
các l(cid:1243)i chính t(cid:1191) th(cid:1133)(cid:1249)ng g(cid:1211)p”, pg. 16-36, pg. 69-73
[8]. (cid:264)oàn Xuân Kiên, “Bàn v(cid:1221) chuy(cid:1227)n (cid:255)ánh d(cid:1193)u thanh trong ti(cid:1219)ng Vi(cid:1227)t”,
(cid:255)(cid:259)ng t(cid:1189)i trang http://home.tiscali.be/centre.vietnam/
[9]. (cid:264)oàn Xuân Kiên, “Xem l(cid:1189)i m(cid:1245)t v(cid:1193)n (cid:255)(cid:1221) ng(cid:1267) âm ti(cid:1219)ng Vi(cid:1227)t : c(cid:1193)u trúc âm
ti(cid:1219)t”, (cid:255)(cid:259)ng t(cid:1189)i trang http://home.tiscali.be/centre.vietnam/
65
[10]. http://www.easyvn.com
[11]. Tài li(cid:1227)u v(cid:1221) ph(cid:1195)n m(cid:1221)m VietPad (cid:255)(cid:1133)(cid:1255)c công b(cid:1237) t(cid:1189)i trang web:
http://vietpad.sourceforge.net
[12]. Tài li(cid:1227)u v(cid:1221) ph(cid:1195)n m(cid:1221)m AMPad (cid:255)(cid:1133)(cid:1255)c công b(cid:1237) t(cid:1189)i trang web:
http://www.echip.com.vn/echiproot/weblh/qcbg/duynghi/automark
66
[13]. 1 s(cid:1237) ph(cid:1195)n m(cid:1221)m h(cid:1243) tr(cid:1255) trên www.codeproject.com
Ph(cid:1257) l(cid:1257)c : C(cid:1193)u trúc kho ng(cid:1267) li(cid:1227)u
Kho ng(cid:1267) li(cid:1227)u g(cid:1239)m nhi(cid:1221)u t(cid:1201)p tin text (.txt), m(cid:1243)i t(cid:1201)p tin ch(cid:1261)a m(cid:1245)t t(cid:1201)p các câu thu(cid:1245)c cùng
1 ch(cid:1259)(cid:3)(cid:255)(cid:1221). T(cid:1201)p tin text (cid:255)(cid:1133)(cid:1255)c l(cid:1133)u v(cid:1247)i c(cid:1193)u trúc sau
o (cid:55)(cid:1201)p tin text g(cid:1239)m nhi(cid:1221)u record, m(cid:1243)i record g(cid:1239)m :
§ ID : (cid:255)(cid:1231)nh danh
§ S : n(cid:1245)i dung câu
S cách ID b(cid:1205)ng d(cid:1193)u TAB (“\t”)
(cid:38)(cid:1193)u trúc tr(cid:1133)(cid:1249)ng ID :
Thông tin ID bao g(cid:1239)m nh(cid:1267)ng n(cid:1245)i dung sau:
• Ngày (1..31) • Tháng (1..12) • (cid:49)(cid:259)m (04 = 2004) • Xu(cid:1193)t x(cid:1261) 2 ký t(cid:1269) 2 ký t(cid:1269) 2 ký t(cid:1269) 3 ký t(cid:1269)
o Ký t(cid:1269)(cid:3)(cid:255)(cid:1195)u tiên: ngu(cid:1239)n g(cid:1237)c c(cid:1259)a ng(cid:1267) li(cid:1227)u
§ B: Báo chí § T: Tác ph(cid:1197)m v(cid:259)n h(cid:1233)c § S: Sách § L Lu(cid:1201)n v(cid:259)n § V: Các lo(cid:1189)i v(cid:259)n b(cid:1191)n
o Ký t(cid:1269) th(cid:1261) hai và ba: (cid:255)(cid:1231)nh danh ngu(cid:1239)n g(cid:1237)c c(cid:1259)a ng(cid:1267) li(cid:1227)u
Thanh Niên
Tu(cid:1241)i Tr(cid:1215)
§ (cid:57)(cid:1221) báo chí: • TN: • TT: • SG: • ND: • LD: • CT: • BD: • VH: Sài Gòn Gi(cid:1191)i Phóng Nhân Dân Ng(cid:1133)(cid:1249)i Lao (cid:264)(cid:1245)ng C(cid:1195)n Th(cid:1131) Bình (cid:264)(cid:1231)nh S(cid:1203)c màu v(cid:259)n hóa
67
§ (cid:57)(cid:1221) tác ph(cid:1197)m v(cid:259)n h(cid:1233)c: nhóm làm (cid:255)(cid:1221) tài t(cid:1269) quy (cid:255)(cid:1231)nh (cid:255)(cid:1231)nh danh cho tên các tác ph(cid:1197)m V(cid:259)n h(cid:1233)c mà mình có, (cid:255)(cid:1239)ng th(cid:1249)i ph(cid:1191)i có tài li(cid:1227)u cho ph(cid:1195)n này (ý ngh(cid:429)a c(cid:1259)a t(cid:1263)ng (cid:255)(cid:1231)nh danh mà nhóm (cid:255)ó (cid:86)(cid:1265) d(cid:1257)ng và l(cid:1133)u trong t(cid:1201)p tin riêng)
• Vd: Truy(cid:847)n Ki(cid:841)u c(cid:879)a Nguy(cid:845)n Du (cid:224) TK • Vd: Cô Gái (cid:264)(cid:859) Long c(cid:879)a Kim Dung (cid:224) CG
§ (cid:57)(cid:1221) sách: cách qui (cid:255)(cid:1231)nh gi(cid:1237)ng tác ph(cid:1197)m v(cid:259)n h(cid:1233)c. § (cid:57)(cid:1221) lu(cid:1201)n v(cid:259)n: cách qui (cid:255)(cid:1231)nh gi(cid:1237)ng tác ph(cid:1197)m v(cid:259)n h(cid:1233)c. § (cid:57)(cid:1221) v(cid:259)n b(cid:1191)n: cách qui (cid:255)(cid:1231)nh gi(cid:1237)ng tác ph(cid:1197)m v(cid:259)n h(cid:1233)c. M(cid:1245)t kho ng(cid:1267) li(cid:1227)u (cid:255)áng k(cid:1223)(cid:3) (cid:255)ó là các v(cid:259)n b(cid:1191)n c(cid:1259)a Nhà N(cid:1133)(cid:1247)c, v(cid:259)n b(cid:1191)n Pháp Lu(cid:1201)t (www.luatgiapham.com),…
• Ch(cid:1259)(cid:3)(cid:255)(cid:1221) 1 ký t(cid:1269)
o (cid:57)(cid:1221) báo chí:
§ X: Xã h(cid:1245)i, tin trong n(cid:1133)(cid:1247)c, tin th(cid:1219) gi(cid:1247)i § T: Th(cid:1133)(cid:1131)ng m(cid:1189)i, kinh doanh, kinh t(cid:1219) § V: V(cid:259)n hóa, th(cid:1223) thao, (cid:255)(cid:1249)i s(cid:1237)ng, § P: Pháp lu(cid:1201)t § Y: Y t(cid:1219), s(cid:1261)c kh(cid:1235)e, § K: Khoa h(cid:1233)c, k(cid:1275) thu(cid:1201)t, tin h(cid:1233)c
o (cid:57)(cid:1221) v(cid:259)n h(cid:1233)c:
§ T: Th(cid:1131) § N: Truy(cid:1227)n ng(cid:1203)n § D: Truy(cid:1227)n dài § K: Truy(cid:1227)n ki(cid:1219)m hi(cid:1227)p
o (cid:57)(cid:1221) sách: (gi(cid:1237)ng qui (cid:255)(cid:1231)nh c(cid:1259)a báo chí)
(gi(cid:1237)ng qui (cid:255)(cid:1231)nh c(cid:1259)a báo chí)
§ o (cid:57)(cid:1221) lu(cid:1201)n v(cid:259)n: § o (cid:57)(cid:1221) v(cid:259)n b(cid:1191)n: § (gi(cid:1237)ng qui (cid:255)(cid:1231)nh c(cid:1259)a báo chí)
• (cid:54)(cid:1237) th(cid:1261) t(cid:1269) bài vi(cid:1219)t4 ký t(cid:1269) (01..9999) • (cid:54)(cid:1237) th(cid:1261) t(cid:1269) câu 3 ký t(cid:1269) (001..999)
68
(cid:55)(cid:1241)ng k(cid:1219)t l(cid:1189)i, tr(cid:1133)(cid:1249)ng ID có chi(cid:1221)u dài là: 17
69
Hình 5.2-35 : (cid:55)(cid:821)p tin kho ng(cid:887) li(cid:847)u m(cid:819)u