TR(cid:584)(cid:860)NG (cid:264)(cid:605)I H(cid:844)C KHOA H(cid:844)C T(cid:880) NHIÊN KHOA CÔNG NGH(cid:643) THÔNG TIN

(cid:37)(cid:856) MÔN CÔNG NGH(cid:643) TRI TH(cid:872)C

PHAN QU(cid:1236)C LÂN

PH(cid:1132)(cid:1130)NG PHÁP THÊM D(cid:1192)U TI(cid:1218)NG VI(cid:1226)T

VÀO V(cid:258)N B(cid:1190)N TI(cid:1218)NG VI(cid:1226)T KHÔNG D(cid:1192)U

KHOÁ LU(cid:1200)N C(cid:1264) NHÂN TIN H(cid:1232)C

TP. HCM, N(cid:258)M 2005

TR(cid:584)(cid:860)NG (cid:264)(cid:605)I H(cid:844)C KHOA H(cid:844)C T(cid:880) NHIÊN KHOA CÔNG NGH(cid:643) THÔNG TIN (cid:37)(cid:856) MÔN CÔNG NGH(cid:643) TRI TH(cid:872)C

PHAN QU(cid:1236)C LÂN – 0112267

PH(cid:1132)(cid:1130)NG PHÁP THÊM D(cid:1192)U TI(cid:1218)NG VI(cid:1226)T

VÀO V(cid:258)N B(cid:1190)N TI(cid:1218)NG VI(cid:1226)T KHÔNG D(cid:1192)U

KHOÁ LU(cid:1200)N C(cid:1264) NHÂN TIN H(cid:1232)C

GIÁO VIÊN H(cid:1132)(cid:1246)NG D(cid:1198)N

Th.S PH(cid:1188)M PH(cid:1188)M TUY(cid:1218)T TRINH

1

NIÊN KHÓA 2001 – 2005

(cid:47)(cid:1249)i c(cid:1191)m (cid:1131)n

(cid:47)(cid:1249)i (cid:255)(cid:1195)u tiên, em xin chân thành c(cid:1191)m (cid:1131)n cô Ph(cid:1189)m Ph(cid:1189)m Tuy(cid:1219)t Trinh, cô (cid:255)ã tr(cid:1269)c

ti(cid:1219)p h(cid:1133)(cid:1247)ng d(cid:1199)n và t(cid:1189)o (cid:255)(cid:76)(cid:1221)u ki(cid:1227)n cho em nghiên c(cid:1261)u và hoàn thành lu(cid:1201)n v(cid:259)n này.

Em c(cid:458)ng xin chân thành c(cid:1191)m (cid:1131)n th(cid:1195)y (cid:264)inh (cid:264)(cid:76)(cid:1221)n, th(cid:1195)y (cid:255)ã h(cid:1243) tr(cid:1255), giúp (cid:255)(cid:1253) em r(cid:1193)t

nhi(cid:1221)u trong quá trình th(cid:1269)c hi(cid:1227)n. Và em c(cid:458)ng xin c(cid:1191)m (cid:1131)n t(cid:1193)t c(cid:1191) các th(cid:1195)y cô trong khoa

Công ngh(cid:1227) thông tin (cid:255)ã t(cid:1201)n tình ch(cid:1229) b(cid:1191)o và giúp (cid:255)(cid:1253) em trong su(cid:1237)t quá trình h(cid:1233)c t(cid:1201)p

trong tr(cid:1133)(cid:1249)ng.

Con xin chân thành c(cid:1191)m (cid:1131)n ba m(cid:1213), ông bà, anh em và ng(cid:1133)(cid:1249)i thân trong gia (cid:255)ình

(cid:255)ã t(cid:1189)o m(cid:1233)i (cid:255)(cid:76)(cid:1221)u ki(cid:1227)n t(cid:1237)t nh(cid:1193)t cho con h(cid:1233)c t(cid:1201)p và (cid:255)(cid:1245)ng viên, khích l(cid:1227) con trong quá trình

th(cid:1269)c hi(cid:1227)n lu(cid:1201)n v(cid:259)n.

Và cu(cid:1237)i cùng, tôi xin g(cid:1265)i l(cid:1249)i c(cid:1191)m (cid:1131)n (cid:255)(cid:1219)n t(cid:1193)t c(cid:1191) b(cid:1189)n bè, (cid:255)(cid:1211)c bi(cid:1227)t là anh Toàn, b(cid:1189)n

Sinh, b(cid:1189)n Kh(cid:1133)(cid:1131)ng …, nh(cid:1267)ng ng(cid:1133)(cid:1249)i (cid:255)ã h(cid:1243) tr(cid:1255) và giúp tôi hoàn thi(cid:1227)n lu(cid:1201)n v(cid:259)n này.

(cid:48)(cid:1211)c dù em (cid:255)ã c(cid:1237) g(cid:1203)ng hoàn thành lu(cid:1201)n v(cid:259)n trong ph(cid:1189)m vi và kh(cid:1191) n(cid:259)ng cho phép

nh(cid:1133)ng ch(cid:1203)c ch(cid:1203)n s(cid:1217) không tránh kh(cid:1235)i nh(cid:1267)ng thi(cid:1219)u sót. Em kính mong nh(cid:1201)n (cid:255)(cid:1133)(cid:1255)c s(cid:1269)

(cid:70)(cid:1191)m thông và t(cid:1201)n tình ch(cid:1229) b(cid:1191)o c(cid:1259)a quý Th(cid:1195)y Cô và các b(cid:1189)n.

TP. H(cid:1239) Chí Minh, tháng 7 n(cid:259)m 2005

2

Phan Qu(cid:1237)c Lân – 0112267

NH(cid:1200)N XÉT C(cid:1258)A GIÁO VIÊN H(cid:1132)(cid:1246)NG D(cid:1198)N

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

Thành ph(cid:1237) H(cid:1239) Chí Minh, tháng 07 n(cid:259)m 2005

Giáo viên h(cid:1133)(cid:1247)ng d(cid:1199)n

Th.S Ph(cid:1189)m Ph(cid:1189)m Tuy(cid:1219)t Trinh

3

NH(cid:1200)N XÉT C(cid:1258)A GIÁO VIÊN PH(cid:1190)N BI(cid:1226)N

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

Thành ph(cid:1237) H(cid:1239) Chí Minh, tháng 07 n(cid:259)m 2005

Giáo viên ph(cid:1191)n bi(cid:1227)n

TS. (cid:264)inh (cid:264)(cid:76)(cid:1221)n

4

(cid:47)(cid:1248)I NÓI (cid:264)(cid:1194)U

Ch(cid:1267) vi(cid:1219)t ti(cid:1219)ng Vi(cid:1227)t c(cid:1259)a chúng ta có 1 (cid:255)(cid:1211)c (cid:255)(cid:76)(cid:1223)m r(cid:1193)t hay là có s(cid:1269) xu(cid:1193)t hi(cid:1227)n c(cid:1259)a các

(cid:71)(cid:1193)u thanh c(cid:458)ng nh(cid:1133) d(cid:1193)u c(cid:1259)a các ký t(cid:1269). (cid:264)(cid:76)(cid:1221)u này giúp cho ti(cid:1219)ng Vi(cid:1227)t “thêm thanh, thêm

(cid:255)(cid:76)(cid:1227)u”. Tuy nhiên, c(cid:458)ng chính vi(cid:1227)c “thêm thanh, thêm (cid:255)(cid:76)(cid:1227)u” (cid:255)ó làm cho vi(cid:1227)c gõ ti(cid:1219)ng

Vi(cid:1227)t tr(cid:1251) nên t(cid:1237)n nhi(cid:1221)u th(cid:1249)i gian h(cid:1131)n. 1 v(cid:1193)n (cid:255)(cid:1221) khác, khi vi(cid:1227)c s(cid:1265) d(cid:1257)ng Internet tr(cid:1251) nên

thông d(cid:1257)ng, 1 ti(cid:1227)n ích (cid:255)(cid:1133)(cid:1255)c m(cid:1233)i ng(cid:1133)(cid:1249)i (cid:1133)a chu(cid:1245)ng là d(cid:1231)ch v(cid:1257) Email. Nh(cid:1133)ng, cho (cid:255)(cid:1219)n

hi(cid:1227)n nay, h(cid:1195)u h(cid:1219)t các mail server v(cid:1199)n ch(cid:1133)a h(cid:1243) tr(cid:1255) t(cid:1237)t ti(cid:1219)ng Vi(cid:1227)t, do (cid:255)ó, tình tr(cid:1189)ng các lá

mail trên m(cid:1189)ng h(cid:1195)u nh(cid:1133) không có d(cid:1193)u. Vi(cid:1227)c phát tri(cid:1223)n 1 công c(cid:1257) giúp thêm d(cid:1193)u ti(cid:1219)ng

Vi(cid:1227)t vào v(cid:259)n b(cid:1191)n không d(cid:1193)u là vi(cid:1227)c r(cid:1193)t c(cid:1195)n thi(cid:1219)t và thú v(cid:1231).

(cid:264)(cid:1221) tài này h(cid:1133)(cid:1247)ng (cid:255)(cid:1219)n vi(cid:1227)c gi(cid:1191)i quy(cid:1219)t bài toán thêm d(cid:1193)u ti(cid:1219)ng Vi(cid:1227)t theo m(cid:1245)t

(cid:75)(cid:1133)(cid:1247)ng m(cid:1247)i, do (cid:255)ó, ch(cid:1133)(cid:1131)ng trình không chú tr(cid:1233)ng chuyên sâu vào l(cid:429)nh v(cid:1269)c nào. Vi(cid:1227)c

thêm ch(cid:1261)c n(cid:259)ng h(cid:1243) tr(cid:1255) các l(cid:429)nh v(cid:1269)c chuyên sâu khác không (cid:1191)nh h(cid:1133)(cid:1251)ng nhi(cid:1221)u (cid:255)(cid:1219)n c(cid:1193)u

trúc c(cid:1259)a mô hình mà ch(cid:1133)(cid:1131)ng trình áp d(cid:1257)ng.

Lu(cid:1201)n v(cid:259)n (cid:255)(cid:1133)(cid:1255)c t(cid:1241) ch(cid:1261)c thành 5 ch(cid:1133)(cid:1131)ng v(cid:1247)i n(cid:1245)i dung nh(cid:1133) sau :

§ Ch(cid:1133)(cid:1131)ng 1 gi(cid:1247)i thi(cid:1227)u t(cid:1241)ng quan v(cid:1221) bài toán Thêm d(cid:1193)u ti(cid:1219)ng Vi(cid:1227)t vào v(cid:259)n b(cid:1191)n

không d(cid:1193)u, và các công trình (cid:255)ã có liên quan (cid:255)(cid:1219)n (cid:255)(cid:1221) tài.

§ Ch(cid:1133)(cid:1131)ng 2 gi(cid:1247)i thi(cid:1227)u các c(cid:1131) s(cid:1251) lý thuy(cid:1219)t _ tin h(cid:1233)c c(cid:1195)n s(cid:1265) d(cid:1257)ng.

§ Ch(cid:1133)(cid:1131)ng 3 nh(cid:1201)n xét các mô hình (cid:255)ã có tr(cid:1133)(cid:1247)c (cid:255)ây, và (cid:255)(cid:1133)a ra mô hình cài (cid:255)(cid:1211)t

chính.

§ Ch(cid:1133)(cid:1131)ng 4 c(cid:1257) th(cid:1223) hóa mô hình cài (cid:255)(cid:1211)t.

§ Ch(cid:1133)(cid:1131)ng 5 t(cid:1241)ng k(cid:1219)t và (cid:255)(cid:1221) ra h(cid:1133)(cid:1247)ng phát tri(cid:1223)n .

(cid:48)(cid:1256)C L(cid:1256)C

1.1.1. 1.1.2. 1.1.3.

1.2.1. 1.2.2. 1.2.3. 1.2.4.

2.1.1.

2.1.1.1. 2.1.1.2. 2.1.1.3.

2.1.2.

2.1.2.1. 2.1.2.2.

2.3.1.

2.3.1.1. 2.3.1.2.

3.1.1.

Ch(cid:1133)(cid:1131)ng 1.(cid:55)(cid:1240)NG QUAN....................................................................9 1.1. Gi(cid:1247)i thi(cid:1227)u v(cid:1221) bài toán Thêm d(cid:1193)u ti(cid:1219)ng Vi(cid:1227)t vào v(cid:259)n b(cid:1191)n không d(cid:1193)u.......10 Phát bi(cid:1223)u bài toán.........................................................................................10 (cid:264)(cid:1211)c (cid:255)(cid:76)(cid:1223)m .......................................................................................................10 (cid:43)(cid:1133)(cid:1247)ng gi(cid:1191)i quy(cid:1219)t ..........................................................................................11 1.2. Gi(cid:1247)i thi(cid:1227)u các công trình (cid:255)ã có ..................................................................11 AMPad..........................................................................................................11 VietPad .........................................................................................................12 www.EasyVn.com.........................................................................................13 VnMark ........................................................................................................14 Ch(cid:1133)(cid:1131)ng 2.(cid:38)(cid:1130) S(cid:1250) LÝ THUY(cid:1218)T TIN H(cid:1232)C....................................15 2.1. Lý thuy(cid:1219)t v(cid:1221) ngôn ng(cid:1267) h(cid:1233)c.........................................................................16 Âm ti(cid:1219)t (còn g(cid:1233)i là “ti(cid:1219)ng”) ..........................................................................16 (cid:264)(cid:1231)nh ngh(cid:429)a và (cid:255)(cid:1211)c (cid:255)(cid:76)(cid:1223)m âm ti(cid:1219)t ti(cid:1219)ng Vi(cid:1227)t ..............................................16 Thanh là thành ph(cid:1195)n c(cid:1259)a âm ti(cid:1219)t ti(cid:1219)ng Vi(cid:1227)t .............................................16 T(cid:1189)i sao l(cid:1189)i ph(cid:1191)i dùng d(cid:1193)u thanh ? ............................................................17 (cid:55)(cid:1263)..................................................................................................................18 Các quan ni(cid:1227)m v(cid:1221) t(cid:1263) ...............................................................................18 Tiêu chí nh(cid:1201)n di(cid:1227)n “t(cid:1263)” ti(cid:1219)ng Vi(cid:1227)t...........................................................18 2.1.2.2.1. Các tiêu chu(cid:1197)n v(cid:1221) hình th(cid:1261)c .................................................................19 2.1.2.2.2. Các tiêu chu(cid:1197)n v(cid:1221) n(cid:1245)i dung ..................................................................19 2.2. Tách t(cid:1263)........................................................................................................20 Kh(cid:1247)p t(cid:1237)i (cid:255)a (LRMM – Left Right Max Matching).....................................21 2.2.1. 2.2.2. Mô hình m(cid:1189)ng WFST và m(cid:1189)ng n(cid:1131)-ron .......................................................22 2.3. Tách câu......................................................................................................22 Tách câu b(cid:1205)ng Heristics. ..............................................................................23 X(cid:1265) lý d(cid:1193)u ch(cid:1193)m. .....................................................................................23 X(cid:1265) lý d(cid:1193)u ch(cid:1193)m trong ngo(cid:1211)c. ..................................................................24 Ch(cid:1133)(cid:1131)ng 3.MÔ HÌNH CÀI (cid:264)(cid:1210)T ......................................................25 3.1. Các mô hình thêm d(cid:1193)u (cid:255)ã (cid:255)(cid:1133)(cid:1255)c s(cid:1265) d(cid:1257)ng...................................................26 VietPad .........................................................................................................26 3.1.1.1. Mô hình thêm d(cid:1193)u ti(cid:1219)ng Vi(cid:1227)t ..................................................................26 3.1.1.1.1. Ti(cid:1221)n x(cid:1265) lý ............................................................................................26 3.1.1.1.2. Tách token...........................................................................................27 3.1.1.1.3. L(cid:1193)y ra các t(cid:1263) không d(cid:1193)u, chuy(cid:1223)n thành t(cid:1263) có d(cid:1193)u .................................27 VnMark ........................................................................................................28

3.1.2.

6

3.2.1.1. 3.2.1.2. 3.2.1.3.

3.2.2.1.

3.2.2.2.

3.2.3.

4.1.1. 4.1.2. 4.1.3.

4.3.1. 4.3.2.

4.4.1. 4.4.2.

3.1.2.1. Mô hình thêm d(cid:1193)u ti(cid:1219)ng Vi(cid:1227)t ..................................................................28 3.1.2.1.1. Ti(cid:1221)n x(cid:1265) lý ............................................................................................30 3.1.2.1.2. Tách câu ..............................................................................................30 3.1.2.1.3. Tìm các kh(cid:1191) n(cid:259)ng (cid:255)ánh d(cid:1193)u c(cid:1259)a t(cid:1263), câu ................................................30 3.1.2.2. Mô hình hu(cid:1193)n luy(cid:1227)n................................................................................31 3.2. Mô hình (cid:255)(cid:1221) xu(cid:1193)t..........................................................................................32 3.2.1. Mô hình.........................................................................................................32 Tách câu .................................................................................................33 Tách t(cid:1263) b(cid:1205)ng ph(cid:1133)(cid:1131)ng pháp LRMM.........................................................34 Ch(cid:1233)n t(cid:1263) thích h(cid:1255)p ...................................................................................34 3.2.2. Mô hình hu(cid:1193)n luy(cid:1227)n .....................................................................................36 Th(cid:1237)ng kê t(cid:1195)n su(cid:1193)t xu(cid:1193)t hi(cid:1227)n c(cid:1259)a t(cid:1263)..........................................................36 3.2.2.1.1. Xây d(cid:1269)ng kho ng(cid:1267) li(cid:1227)u.........................................................................36 3.2.2.1.2. Th(cid:1237)ng kê t(cid:1195)n su(cid:1193)t xu(cid:1193)t hi(cid:1227)n c(cid:1259)a t(cid:1263) .......................................................37 3.2.2.1.3. T(cid:1189)o t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n chuy(cid:1223)n (cid:255)(cid:1241)i ........................................................................38 Trích xu(cid:1193)t các c(cid:1257)m t(cid:1263) th(cid:1133)(cid:1249)ng s(cid:1265) d(cid:1257)ng ....................................................39 So sánh mô hình này v(cid:1247)i 2 mô hình trên .....................................................41 Ch(cid:1133)(cid:1131)ng 4.CÀI (cid:264)(cid:1210)T TH(cid:1264) NGHI(cid:1226)M.............................................43 4.1. Th(cid:1237)ng kê t(cid:1195)n s(cid:1237) xu(cid:1193)t hi(cid:1227)n c(cid:1259)a t(cid:1263)...............................................................44 Xây d(cid:1269)ng kho ng(cid:1267) li(cid:1227)u text t(cid:1263) báo (cid:255)(cid:76)(cid:1227)n t(cid:1265)..................................................44 Tách câu........................................................................................................48 Tách t(cid:1263) và th(cid:1237)ng kê......................................................................................50 4.2. (cid:55)(cid:1189)o t(cid:1201)p tin t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n chính............................................................................52 4.3. (cid:55)(cid:1189)o t(cid:1201)p tin t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n c(cid:1257)m t(cid:1263) .........................................................................55 (cid:55)(cid:1189)o kho d(cid:1267) li(cid:1227)u tinh gi(cid:1191)n m(cid:1247)i......................................................................55 (cid:55)(cid:1189)o t(cid:1201)p tin t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n c(cid:1257)m t(cid:1263) ...........................................................................58 4.4. Ch(cid:1133)(cid:1131)ng trình chính....................................................................................58 Ch(cid:1133)(cid:1131)ng trình VietEditor..............................................................................59 Ch(cid:1133)(cid:1131)ng trình thêm d(cid:1193)u qua Clipboard.......................................................60 4.5. Th(cid:1265) nghi(cid:1227)m ................................................................................................62 Ch(cid:1133)(cid:1131)ng 5.(cid:46)(cid:1218)T QU(cid:1190), H(cid:1132)(cid:1246)NG PHÁT TRI(cid:1222)N .............................63 5.1. (cid:43)(cid:1189)n ch(cid:1219) và h(cid:1133)(cid:1247)ng phát tri(cid:1223)n .....................................................................64 5.2. (cid:46)(cid:1219)t lu(cid:1201)n ......................................................................................................64 Ph(cid:1257) l(cid:1257)c : C(cid:1193)u trúc kho ng(cid:1267) li(cid:1227)u ......................................................67

7

DANH M(cid:1256)C HÌNH

Hình 1.2.1-1 : Thêm d(cid:813)u ti(cid:839)ng Vi(cid:847)t t(cid:889)(cid:3)(cid:255)(cid:865)ng b(cid:825)ng AMPad......................................................12 Hình 1.2.2-2 : Gõ ti(cid:839)ng Vi(cid:847)t không d(cid:813)u trên VietPad.............................................................12 Hình 1.2.2-3 : V(cid:259)n b(cid:811)n sau khi th(cid:889)c hi(cid:847)n ch(cid:881)c n(cid:259)ng thêm d(cid:813)u ti(cid:839)ng Vi(cid:847)t c(cid:879)a VietPad...........13 Hình 1.2.3-4 : Gõ ti(cid:839)ng Vi(cid:847)t không d(cid:813)u trên EasyVn..............................................................14 Hình 1.2.3-5 : V(cid:259)n b(cid:811)n sau khi t(cid:889)(cid:3)(cid:255)(cid:865)ng thêm d(cid:813)u trên EasyVn ..............................................14 Hình 1.2.4-6 : S(cid:751)(cid:3)(cid:255)(cid:859) k(cid:839)t c(cid:813)u âm ti(cid:839)ng Vi(cid:847)t.............................................................................17 Hình 3.1.1-7 : L(cid:753)u (cid:255)(cid:859) th(cid:889)c hi(cid:847)n c(cid:879)a mô hình (cid:881)ng d(cid:877)ng trong VietPad...................................26 Hình 3.1.2-8 : L(cid:753)u (cid:255)(cid:859) th(cid:889)c hi(cid:847)n c(cid:879)a mô hình n-gram ............................................................29 Hình 3.2-9: L(cid:753)u (cid:255)(cid:859) th(cid:889)c hi(cid:847)n c(cid:879)a mô hình (cid:255)(cid:841) xu(cid:813)t ................................................................33 Hình 3.2-10 : T(cid:821)p tin m(cid:819)u sau khi th(cid:857)ng kê t(cid:815)n su(cid:813)t t(cid:883)..........................................................38 Hình 3.2-11 : Trích t(cid:821)p tin TuDienChinh.txt ..........................................................................39 Hình 3.2-12 : Trích t(cid:821)p tin CumTu.txt....................................................................................41 Hình 4.1.1-13: Giao di(cid:847)n ch(cid:753)(cid:751)ng trình HTML2TXT ..............................................................44 Hình 4.1.1-14: C(cid:813)u hình c(cid:879)a ch(cid:753)(cid:751)ng trình HTML2TXT.........................................................45 Hình 4.1.1-15 : M(cid:865)t trang báo thanh niên..............................................................................47 Hình 4.1.1-16 : (cid:39)(cid:887) li(cid:847)u (cid:255)(cid:753)(cid:875)c tách t(cid:883) trang báo Thanh niên...................................................48 Hình 4.1.2-17: Giao di(cid:847)n ch(cid:753)(cid:751)ng trình Tách Câu..................................................................49 Hình 4.1.2-18: T(cid:883) vi(cid:839)t t(cid:823)t cung c(cid:813)p cho ch(cid:753)(cid:751)ng trình Tách Câu............................................49 Hình 4.1.2-19: N(cid:865)i dung file k(cid:839)t xu(cid:813)t c(cid:879)a ch(cid:753)(cid:751)ng trình Tách Câu .........................................50 Hình 4.1.3-20: Giao di(cid:847)n module tách t(cid:883)...............................................................................51 Hình4.1.3-21: N(cid:865)i dung t(cid:821)p tin th(cid:753) m(cid:877)c ngu(cid:859)n......................................................................51 Hình 4.1.3-22: N(cid:865)i dung t(cid:821)p tin t(cid:883)(cid:3)(cid:255)(cid:76)(cid:843)n .................................................................................52 Hình 4.1.3-23: N(cid:865)i dung t(cid:821)p tin k(cid:839)t qu(cid:811).................................................................................52 Hình 4.1.3-24: Giao di(cid:847)n ch(cid:753)(cid:751)ng trình t(cid:809)o t(cid:883)(cid:3)(cid:255)(cid:76)(cid:843)n chính.......................................................53 Hình 4.1.3-25 : Trích 1 ph(cid:815)n TuDienChinh.txt.......................................................................54 Hình 4.1.3-26 : Trích 1 ph(cid:815)n TuDienPhanLop.txt.................................................................54 Hình 4.1.3-27: Trích 1 ph(cid:815)n KhoCau.txt................................................................................55 Hình 4.3.1-28: Giao di(cid:847)n ch(cid:753)(cid:751)ng trình t(cid:809)o kho d(cid:887) li(cid:847)u tinh gi(cid:811)n...........................................56 Hình 4.3.1-29 : Trích 1 ph(cid:815)n th(cid:753) m(cid:877)c k(cid:839)t xu(cid:813)t .......................................................................57 Hình 4.3.1-30 : Th(cid:753) m(cid:877)c con _a trong th(cid:753) m(cid:877)c k(cid:839)t xu(cid:813)t.........................................................57 Hình 4.3.2-31: Giao di(cid:847)n ch(cid:753)(cid:751)ng trình t(cid:809)o t(cid:821)p tin c(cid:877)m t(cid:883) .....................................................58 Hình 4.4.1-32: Giao di(cid:847)n ch(cid:753)(cid:751)ng trình chính VietEditor .......................................................59 Hình 4.4.2-33: Giao di(cid:847)n ch(cid:753)(cid:751)ng trình chính thêm d(cid:813)u Clipboard ........................................60 Hình 4.4.2-34: Test ch(cid:753)(cid:751)ng trình thêm d(cid:813)u Clipboard...........................................................61 Hình 5.2-35 : T(cid:821)p tin kho ng(cid:887) li(cid:847)u m(cid:819)u .................................................................................69

8

Ch(cid:1133)(cid:1131)ng 1. (cid:55)(cid:1240)NG QUAN

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

1.1. Gi(cid:1247)i thi(cid:1227)u v(cid:1221) bài toán Thêm d(cid:1193)u ti(cid:1219)ng Vi(cid:1227)t vào

(cid:89)(cid:259)n b(cid:1191)n không d(cid:1193)u

1.1.1.

Phát bi(cid:1223)u bài toán

Bài toán có th(cid:1223)(cid:3)(cid:255)(cid:1133)(cid:1255)c phát bi(cid:1223)u nh(cid:1133) sau : Cho m(cid:1245)t v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không

(cid:71)(cid:1193)u. Chuy(cid:1223)n v(cid:259)n b(cid:1191)n không d(cid:1193)u này thành có d(cid:1193)u v(cid:1247)i (cid:255)(cid:1245) chính xác cao.

Ch(cid:1229) s(cid:1265) d(cid:1257)ng t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n t(cid:1263) và kho ng(cid:1267) li(cid:1227)u thô làm (cid:255)(cid:1195)u vào.

Khái ni(cid:1227)m t(cid:1263)(cid:3)(cid:1251)(cid:3)(cid:255)ây là “t(cid:1263) t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n” – t(cid:1261)c là các t(cid:1263)(cid:3)(cid:255)(cid:1131)n, t(cid:1263) ghép và c(cid:1257)m t(cid:1263)

(cid:255)(cid:1133)(cid:1255)c l(cid:1133)u trong t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n.

Ch(cid:1229) x(cid:1265) lý các v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t có mã Unicode.

1.1.2. (cid:264)(cid:1211)c (cid:255)(cid:76)(cid:1223)m

Ch(cid:1267) vi(cid:1219)t ti(cid:1219)ng Vi(cid:1227)t có 1 (cid:255)(cid:1211)c (cid:255)(cid:76)(cid:1223)m r(cid:1193)t hay là s(cid:1269) xu(cid:1193)t hi(cid:1227)n c(cid:1259)a các d(cid:1193)u thanh

(cid:70)(cid:458)ng nh(cid:1133) d(cid:1193)u c(cid:1259)a các ký t(cid:1269). Vi(cid:1227)c có d(cid:1193)u thanh và d(cid:1193)u c(cid:1259)a ký t(cid:1269) này làm phong

phú thêm cho ngôn t(cid:1263) ti(cid:1219)ng Vi(cid:1227)t, và c(cid:458)ng góp ph(cid:1195)n t(cid:259)ng (cid:255)(cid:1245) bi(cid:1223)u c(cid:1191)m c(cid:1259)a ti(cid:1219)ng

Vi(cid:1227)t.

(cid:39)(cid:1193)u thanh là 1 thành ph(cid:1195)n “b(cid:1193)t kh(cid:1191) phân” trong âm ti(cid:1219)t ti(cid:1219)ng Vi(cid:1227)t [8]. Khi

lo(cid:1189)i b(cid:1235) d(cid:1193)u thanh, vi(cid:1227)c hi(cid:1223)u ngh(cid:429)a c(cid:1259)a t(cid:1263), g(cid:1239)m 1 hay nhi(cid:1221)u âm ti(cid:1219)t k(cid:1219)t h(cid:1255)p v(cid:1247)i

nhau, tr(cid:1251) nên khó kh(cid:259)n và d(cid:1225) gây hi(cid:1223)u l(cid:1195)m.

(cid:264)(cid:1223) thêm d(cid:1193)u, tr(cid:1133)(cid:1247)c tiên, ta c(cid:1195)n ph(cid:1191)i xác (cid:255)(cid:1231)nh ranh gi(cid:1247)i t(cid:1263). Bài toán xác

(cid:255)(cid:1231)nh ranh gi(cid:1247)i t(cid:1263)(cid:3)(cid:255)(cid:1237)i v(cid:1247)i v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t có d(cid:1193)u (cid:255)ã là 1 vi(cid:1227)c th(cid:1265) thách, thì khi

không có d(cid:1193)u, vi(cid:1227)c nh(cid:1201)n di(cid:1227)n ranh gi(cid:1247)i t(cid:1263) càng tr(cid:1251) nên khó kh(cid:259)n h(cid:1131)n. V(cid:1193)n (cid:255)(cid:1221)

này l(cid:1189)i càng khó kh(cid:259)n, khi ranh gi(cid:1247)i t(cid:1263) trong ti(cid:1219)ng Vi(cid:1227)t c(cid:458)ng nh(cid:1133) 1 s(cid:1237) ngôn ng(cid:1267)

Châu Á khác, m(cid:1245)t t(cid:1263) chính t(cid:1191) có th(cid:1223) không t(cid:1133)(cid:1131)ng (cid:1261)ng v(cid:1247)i m(cid:1245)t “t(cid:1263)” trên v(cid:259)n

(cid:69)(cid:1191)n. (cid:264)(cid:1237)i v(cid:1247)i các th(cid:1261) ti(cid:1219)ng Châu Âu, ta có th(cid:1223) d(cid:1225) dàng nh(cid:1201)n ra m(cid:1245)t t(cid:1263), do các t(cid:1263)

(cid:255)(cid:1133)(cid:1255)c phân cách b(cid:1251)i kho(cid:1191)ng tr(cid:1203)ng. (cid:264)(cid:76)(cid:1221)u này l(cid:1189)i không (cid:255)úng v(cid:1247)i ti(cid:1219)ng Vi(cid:1227)t.

Trong ti(cid:1219)ng Vi(cid:1227)t, các ti(cid:1219)ng _ hay còn g(cid:1233)i là âm ti(cid:1219)t _ (cid:255)(cid:1133)(cid:1255)c phân cách b(cid:1251)i

10

kho(cid:1191)ng tr(cid:1203)ng, ch(cid:1261) không ph(cid:1191)i t(cid:1263).

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

Sau khi (cid:255)ã nh(cid:1201)n di(cid:1227)n (cid:255)(cid:1133)(cid:1255)c ranh gi(cid:1247)i t(cid:1263), ta c(cid:1195)n ph(cid:1191)i xác (cid:255)(cid:1231)nh cho (cid:255)úng t(cid:1263) có

(cid:71)(cid:1193)u nào có d(cid:1189)ng th(cid:1223) hi(cid:1227)n không d(cid:1193)u nh(cid:1133) v(cid:1201)y. Vi(cid:1227)c xác (cid:255)(cid:1231)nh này c(cid:458)ng gây nhi(cid:1221)u

khó kh(cid:259)n, khi 1 t(cid:1263) không d(cid:1193)u có th(cid:1223) có nhi(cid:1221)u t(cid:1263) có d(cid:1193)u t(cid:1133)(cid:1131)ng (cid:1261)ng v(cid:1247)i nó.

Ví d(cid:877) 1-1 : T(cid:1263) không d(cid:1193)u “toi” có 3 t(cid:1263) có d(cid:1193)u t(cid:1133)(cid:1131)ng (cid:1261)ng là “tôi”, “t(cid:1247)i” và

“t(cid:1237)i”.

Do (cid:255)ó, sau khi (cid:255)ã gi(cid:1191)i quy(cid:1219)t xong bài toán tách t(cid:1263) ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u, ta

(cid:70)(cid:1195)n ph(cid:1191)i gi(cid:1191)i quy(cid:1219)t thêm bài toán xác (cid:255)(cid:1231)nh t(cid:1263) có d(cid:1193)u thích h(cid:1255)p v(cid:1247)i t(cid:1263) không d(cid:1193)u

(cid:255)ó. (cid:264)ây chính là 2 bài toán c(cid:1195)n gi(cid:1191)i quy(cid:1219)t chính c(cid:1259)a mô hình.

1.1.3. (cid:43)(cid:1133)(cid:1247)ng gi(cid:1191)i quy(cid:1219)t

(cid:264)(cid:1237)i v(cid:1247)i tách t(cid:1263) có d(cid:1193)u, có nhi(cid:1221)u mô hình (cid:255)(cid:1133)(cid:1255)c s(cid:1265) d(cid:1257)ng và (cid:255)(cid:1189)t k(cid:1219)t qu(cid:1191) cao

nh(cid:1133) MM (Maximum Matching : forward / backward hay còn g(cid:1233)i là LRMM:

Left Right); gi(cid:1191)i thu(cid:1201)t h(cid:1233)c c(cid:1191)i bi(cid:1219)n TBL; m(cid:1189)ng chuy(cid:1223)n d(cid:1231)ch tr(cid:1189)ng thái h(cid:1267)u h(cid:1189)n

có tr(cid:1233)ng s(cid:1237) WFST (Weighted finite-state Transducer); gi(cid:1191)i thu(cid:1201)t d(cid:1269)a trên nén

(compression) [1] …. H(cid:1133)(cid:1247)ng gi(cid:1191)i quy(cid:1219)t (cid:255)(cid:1133)(cid:1255)c (cid:255)(cid:1221) xu(cid:1193)t là s(cid:1265) d(cid:1257)ng ph(cid:1133)(cid:1131)ng pháp

tách t(cid:1263) LRMM [1][7] k(cid:1219)t h(cid:1255)p v(cid:1247)i mô hình Bigram (cid:255)ã gi(cid:1191)i quy(cid:1219)t khá hi(cid:1227)u qu(cid:1191) 2

(cid:89)(cid:1193)n (cid:255)(cid:1221) c(cid:1259)a bài toán này. Ph(cid:1133)(cid:1131)ng pháp ch(cid:1229) m(cid:1247)i (cid:255)(cid:1133)(cid:1255)c áp d(cid:1257)ng cho mô hình thêm

(cid:71)(cid:1193)u offine, nh(cid:1133)ng có th(cid:1223)(cid:3)(cid:255)(cid:1133)(cid:1255)c cài (cid:255)(cid:1211)t (cid:255)(cid:1223) gán d(cid:1193)u online.

1.2. Gi(cid:1247)i thi(cid:1227)u các công trình (cid:255)ã có

1.2.1. AMPad

AMPad [12] (tên version c(cid:458) và thông d(cid:1257)ng v(cid:1247)i m(cid:1233)i ng(cid:1133)(cid:1249)i là AutoMark)

(cid:70)(cid:1259)a tác gi(cid:1191) Tr(cid:1195)n Tri(cid:1219)t Tâm là s(cid:1191)n ph(cid:1197)m (cid:255)(cid:1195)u tiên nghiên c(cid:1261)u v(cid:1221) l(cid:429)nh v(cid:1269)c này.

Ch(cid:1133)(cid:1131)ng trình (cid:255)ã (cid:255)(cid:1133)(cid:1255)c nhi(cid:1221)u ng(cid:1133)(cid:1249)i bi(cid:1219)t (cid:255)(cid:1219)n và (cid:255)(cid:1133)(cid:1255)c s(cid:1265) d(cid:1257)ng r(cid:1245)ng rãi. (cid:264)(cid:76)(cid:1221)u này

cho th(cid:1193)y vi(cid:1227)c phát tri(cid:1223)n (cid:1261)ng d(cid:1257)ng hoàn thi(cid:1227)n h(cid:1131)n n(cid:1267)a v(cid:1221) thêm d(cid:1193)u ti(cid:1219)ng Vi(cid:1227)t là

11

có nhu c(cid:1195)u, và nhu c(cid:1195)u này s(cid:1217) ngày càng t(cid:259)ng cao. Ch(cid:1133)(cid:1131)ng trình AMPad có

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

(cid:255)(cid:76)(cid:1223)m hay là vi(cid:1227)c áp d(cid:1257)ng mô hình x(cid:1265) lý thêm d(cid:1193)u (cid:1251) ch(cid:1219)(cid:3)(cid:255)(cid:1245) online, t(cid:1189)o s(cid:1269) tr(cid:1269)c

quan, thân thi(cid:1227)n cho ng(cid:1133)(cid:1249)i s(cid:1265) d(cid:1257)ng.

Hình 1.2.1-1 : Thêm d(cid:813)u ti(cid:839)ng Vi(cid:847)t t(cid:889)(cid:3)(cid:255)(cid:865)ng b(cid:825)ng AMPad

1.2.2. VietPad

Vietpad [11] là trình so(cid:1189)n th(cid:1191)o h(cid:1243) tr(cid:1255) ti(cid:1219)ng Vi(cid:1227)t Unicode, (cid:255)(cid:1133)(cid:1255)c phát tri(cid:1223)n

(cid:69)(cid:1251)i Quân Nguy(cid:1225)n và nhóm phát tri(cid:1223)n trên http://vietpad.sourceforge.net. Ngoài

ch(cid:1261)c n(cid:259)ng thêm d(cid:1193)u t(cid:1269)(cid:3)(cid:255)(cid:1245)ng offline mà lu(cid:1201)n v(cid:259)n (cid:255)ang nghiên c(cid:1261)u, VietPad còn

là 1 trình so(cid:1189)n th(cid:1191)o ti(cid:1219)ng Vi(cid:1227)t h(cid:1243) tr(cid:1255) r(cid:1193)t t(cid:1237)t Unicode và là mã ngu(cid:1239)n m(cid:1251).

12

Hình 1.2.2-2 : Gõ ti(cid:839)ng Vi(cid:847)t không d(cid:813)u trên VietPad

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

Hình 1.2.2-3 : V(cid:259)n b(cid:811)n sau khi th(cid:889)c hi(cid:847)n ch(cid:881)c n(cid:259)ng thêm d(cid:813)u ti(cid:839)ng Vi(cid:847)t c(cid:879)a VietPad

1.2.3. www.EasyVn.com

Trang web www.easyvn.com [10] cung c(cid:1193)p d(cid:1231)ch v(cid:1257) email (cid:255)(cid:76)(cid:1227)n t(cid:1265) mi(cid:1225)n phí

trên m(cid:1189)ng, v(cid:1247)i s(cid:1269) h(cid:1243) tr(cid:1255) ng(cid:1133)(cid:1249)i dùng r(cid:1193)t t(cid:1237)t v(cid:1221) ngôn ng(cid:1267) Vi(cid:1227)t. 1 ch(cid:1261)c n(cid:259)ng n(cid:1241)i

(cid:69)(cid:1201)t c(cid:1259)a www.easyvn.com là : sau khi so(cid:1189)n th(cid:1191)o xong b(cid:1261)c mail, ng(cid:1133)(cid:1249)i dùng có

th(cid:1223) ch(cid:1233)n ch(cid:1261)c n(cid:259)ng Thêm d(cid:1193)u ti(cid:1219)ng Vi(cid:1227)t (cid:255)(cid:1223) bi(cid:1219)n v(cid:259)n b(cid:1191)n không d(cid:1193)u thành có

(cid:71)(cid:1193)u. Do (cid:255)ây là d(cid:1231)ch v(cid:1257)(cid:3) (cid:255)(cid:1133)(cid:1255)c cung c(cid:1193)p và thu phí trên NET (cho s(cid:1265) d(cid:1257)ng th(cid:1265)

13

trong 2 tháng), mô hình thêm d(cid:1193)u t(cid:1269)(cid:3)(cid:255)(cid:1245)ng c(cid:1259)a www.easyvn.com(cid:3)(cid:255)(cid:1133)(cid:1255)c gi(cid:1267) kín.

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

Hình 1.2.3-4 : Gõ ti(cid:839)ng Vi(cid:847)t không d(cid:813)u trên EasyVn

Hình 1.2.3-5 : V(cid:259)n b(cid:811)n sau khi t(cid:889)(cid:3)(cid:255)(cid:865)ng thêm d(cid:813)u trên EasyVn

1.2.4. VnMark

VnMark [2] (cid:255)(cid:1133)(cid:1255)c tác gi(cid:1191) Nguy(cid:1225)n V(cid:259)n Toàn phát tri(cid:1223)n. Do tác gi(cid:1191)(cid:3)(cid:255)ã làm

14

th(cid:1193)t l(cid:1189)c ch(cid:1133)(cid:1131)ng trình, do (cid:255)ó, không có hình (cid:1191)nh minh ho(cid:1189) ch(cid:1133)(cid:1131)ng trình.

Ch(cid:1133)(cid:1131)ng 2. (cid:38)(cid:1130) S(cid:1250) LÝ THUY(cid:1218)T

TIN H(cid:1232)C

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

2.1. Lý thuy(cid:1219)t v(cid:1221) ngôn ng(cid:1267) h(cid:1233)c

2.1.1. Âm ti(cid:1219)t (còn g(cid:1233)i là “ti(cid:1219)ng”)

2.1.1.1. (cid:264)(cid:1231)nh ngh(cid:429)a và (cid:255)(cid:1211)c (cid:255)(cid:76)(cid:1223)m âm ti(cid:1219)t ti(cid:1219)ng Vi(cid:1227)t

“Ti(cid:1219)ng” là “(cid:255)(cid:1131)n v(cid:1231) c(cid:1131) b(cid:1191)n” trong ti(cid:1219)ng Vi(cid:1227)t [1]. M(cid:1245)t “ti(cid:1219)ng” trong ti(cid:1219)ng

Vi(cid:1227)t (cid:255)(cid:1133)(cid:1255)c nói lên là m(cid:1245)t (cid:255)(cid:1131)n v(cid:1231) ng(cid:1267) âm, và c(cid:458)ng là m(cid:1245)t (cid:255)(cid:1131)n v(cid:1231) ng(cid:1267) pháp.

(cid:48)(cid:1245)t “ti(cid:1219)ng” là m(cid:1245)t (cid:255)(cid:1131)n v(cid:1231) phát ngôn, và là m(cid:1245)t (cid:255)(cid:1131)n v(cid:1231) c(cid:1259)a l(cid:1249)i nói (cid:255)(cid:1223) t(cid:1189)o ra

nh(cid:1267)ng k(cid:1219)t c(cid:1193)u l(cid:1249)i nói trong ho(cid:1189)t (cid:255)(cid:1245)ng nói n(cid:259)ng giao ti(cid:1219)p. (cid:264)(cid:1211)c tính này c(cid:1259)a

ti(cid:1219)ng chính là m(cid:1245)t tính cách lo(cid:1189)i hình c(cid:1259)a ti(cid:1219)ng Vi(cid:1227)t, trong (cid:255)ó m(cid:1243)i (cid:255)(cid:1131)n v(cid:1231)

phát âm trùng khít v(cid:1247)i (cid:255)(cid:1131)n v(cid:1231) ng(cid:1267) pháp (hình v(cid:1231), và t(cid:1263)). Khi xét trên bình

di(cid:1227)n ng(cid:1267) âm, ti(cid:1219)ng là m(cid:1245)t (cid:255)(cid:1131)n v(cid:1231) c(cid:1259)a ng(cid:1267) âm, t(cid:1261)c là m(cid:1245)t âm ti(cid:1219)t [9].

Vi(cid:1227)c nh(cid:1201)n di(cid:1227)n “ti(cid:1219)ng” (cid:255)(cid:1237)i v(cid:1247)i ng(cid:1133)(cid:1249)i Vi(cid:1227)t là (cid:255)(cid:76)(cid:1221)u quá d(cid:1225) dàng, t(cid:1269) nhiên

(cid:255)(cid:1237)i v(cid:1247)i m(cid:1233)i ng(cid:1133)(cid:1249)i mà không c(cid:1195)n m(cid:1245)t trình (cid:255)(cid:1245) ngôn ng(cid:1267) gì cao, vì : trong l(cid:1249)i

nói (m(cid:1211)t ng(cid:1267) âm), m(cid:1243)i “ti(cid:1219)ng” bao gi(cid:1249) c(cid:458)ng phát ra m(cid:1245)t h(cid:1131)i, nghe thành m(cid:1245)t

ti(cid:1219)ng, và có mang m(cid:1245)t thanh (cid:255)(cid:76)(cid:1227)u nh(cid:1193)t (cid:255)(cid:76)(cid:1227)u; còn trong ch(cid:1267) vi(cid:1219)t (m(cid:1211)t chính

(cid:87)(cid:1191)), m(cid:1243)i ti(cid:1219)ng bao gi(cid:1249) c(cid:458)ng (cid:255)(cid:1133)(cid:1255)c vi(cid:1219)t r(cid:1249)i thành t(cid:1263)ng ch(cid:1267) (ng(cid:259)n cách b(cid:1205)ng

kho(cid:1191)ng tr(cid:1203)ng hay các d(cid:1193)u ng(cid:1203)t). (cid:264)(cid:1131)n v(cid:1231) “ti(cid:1219)ng” (cid:255)(cid:1237)i v(cid:1247)i ng(cid:1133)(cid:1249)i Vi(cid:1227)t là m(cid:1245)t

(cid:255)(cid:1131)n v(cid:1231) t(cid:1269) nhiên, khái ni(cid:1227)m “ti(cid:1219)ng” (cid:255)ã có t(cid:1263) lâu và (cid:255)(cid:1133)(cid:1255)c ng(cid:1133)(cid:1249)i b(cid:1191)n ng(cid:1267) s(cid:1265)

(cid:71)(cid:1257)ng nó tr(cid:1133)(cid:1247)c khi hi(cid:1223)u và s(cid:1265) d(cid:1257)ng khái ni(cid:1227)m “t(cid:1263)”.

Ví d(cid:877) 2-1:

Câu “Cái bàn này hình bán nguy(cid:1227)t” có 6 ti(cid:1219)ng

2.1.1.2. Thanh là thành ph(cid:1195)n c(cid:1259)a âm ti(cid:1219)t ti(cid:1219)ng Vi(cid:1227)t

Khi phát âm ti(cid:1219)ng Vi(cid:1227)t, chúng ta phát âm t(cid:1263)ng (cid:255)(cid:1131)n v(cid:1231) l(cid:1249)i nói c(cid:1203)t r(cid:1249)i nhau,

(cid:74)(cid:1233)i là âm ti(cid:1219)t. Khi phát âm ch(cid:1201)m m(cid:1245)t âm ti(cid:1219)t, có th(cid:1223) nh(cid:1201)n th(cid:1193)y khá rõ là m(cid:1243)i

âm ti(cid:1219)t (cid:255)(cid:1221)u có th(cid:1223) k(cid:1219)t h(cid:1255)p nhi(cid:1221)u nh(cid:1193)t là ba (cid:255)(cid:1131)n v(cid:1231) phát âm : âm (cid:255)(cid:1195)u + âm

chính + âm cu(cid:1237)i. Ba thành ph(cid:1195)n trên g(cid:1239)m nh(cid:1267)ng âm v(cid:1231) xu(cid:1193)t hi(cid:1227)n t(cid:1133)(cid:1131)ng (cid:255)(cid:1237)i

16

theo th(cid:1261) t(cid:1269) tr(cid:1133)(cid:1247)c sau, nên g(cid:1233)i là nh(cid:1267)ng âm v(cid:1231) tuy(cid:1219)n tính.

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

Ngoài ra, m(cid:1243)i âm ti(cid:1219)t (cid:255)(cid:1133)(cid:1255)c (cid:255)(cid:1231)nh m(cid:1245)t b(cid:1201)c cao th(cid:1193)p, g(cid:1233)i là thanh (cid:255)(cid:76)(cid:1227)u.

Trong l(cid:1249)i nói, m(cid:1243)i âm ti(cid:1219)t ti(cid:1219)ng Vi(cid:1227)t (cid:255)(cid:1221)u mang m(cid:1245)t thanh. Thanh này xu(cid:1193)t

hi(cid:1227)n l(cid:1201)p t(cid:1261)c khi âm ti(cid:1219)t (cid:255)(cid:1133)(cid:1255)c phát ra, cho nên có th(cid:1223) nói r(cid:1205)ng thanh là m(cid:1245)t

thành ph(cid:1195)n b(cid:1193)t kh(cid:1191) phân c(cid:1259)a âm ti(cid:1219)t. Thanh là thành ph(cid:1195)n âm v(cid:1231) phi tuy(cid:1219)n

tính c(cid:1259)a m(cid:1245)t âm ti(cid:1219)t ti(cid:1219)ng Vi(cid:1227)t. Thanh là m(cid:1245)t s(cid:1203)c thái c(cid:1259)a âm thanh các âm

ti(cid:1219)t, qua (cid:255)ó khi phát âm s(cid:1217)(cid:3)(cid:255)(cid:1231)nh b(cid:1201)c cao th(cid:1193)p khác nhau c(cid:1259)a m(cid:1243)i (cid:255)(cid:1131)n v(cid:1231) c(cid:1259)a

chu(cid:1243)i l(cid:1249)i nói. Có sáu thanh làm tiêu chu(cid:1197)n (cid:255)(cid:1231)nh b(cid:1201)c cao th(cid:1193)p khác nhau,

th(cid:1133)(cid:1249)ng g(cid:1233)i là ngang, h(cid:1235)i, s(cid:1203)c, huy(cid:1221)n, ngã, n(cid:1211)ng.

Nh(cid:1133) v(cid:1201)y thì m(cid:1243)i âm ti(cid:1219)t ti(cid:1219)ng Vi(cid:1227)t (cid:255)(cid:1195)y (cid:255)(cid:1259) có t(cid:1237)i (cid:255)a b(cid:1237)n (cid:255)(cid:1131)n v(cid:1231) c(cid:1193)u thành.

(cid:55)(cid:1237)i thi(cid:1223)u thì m(cid:1243)i âm ti(cid:1219)t c(cid:458)ng ph(cid:1191)i có hai thành ph(cid:1195)n : âm chính + thanh.

Hình 1.2.4-6 : S(cid:751)(cid:3)(cid:255)(cid:859) k(cid:839)t c(cid:813)u âm ti(cid:839)ng Vi(cid:847)t

2.1.1.3. (cid:55)(cid:1189)i sao l(cid:1189)i ph(cid:1191)i dùng d(cid:1193)u thanh ?

Các ngôn ng(cid:1267) dùng b(cid:1191)ng ch(cid:1267) cái Latin không dùng thêm kí hi(cid:1227)u ch(cid:1229)

thanh, mà ch(cid:1229) ghi l(cid:1189)i các âm v(cid:1231) tuy(cid:1219)n tính b(cid:1205)ng các (cid:255)(cid:1239) v(cid:1231) là con ch(cid:1267). H(cid:1227)

th(cid:1237)ng ch(cid:1267) vi(cid:1219)t kh(cid:1237)i vuông nh(cid:1133) ch(cid:1267) Hán và ch(cid:1267) Nôm c(cid:458)ng không có kí hi(cid:1227)u

ch(cid:1229) thanh. Nh(cid:1133)ng tr(cid:1133)(cid:1249)ng h(cid:1255)p ch(cid:1267) qu(cid:1237)c ng(cid:1267) có khác. Khi dùng b(cid:1191)ng ch(cid:1267) cái

Latin, các (cid:255)(cid:1239) v(cid:1231) con ch(cid:1267) ch(cid:1133)a (cid:255)(cid:1259)(cid:3)(cid:255)(cid:1223) phân bi(cid:1227)t ý ngh(cid:429)a m(cid:1245)t t(cid:1263)(cid:3)(cid:255)(cid:1133)(cid:1255)c vi(cid:1219)t ra, vì

có (cid:255)(cid:1219)n sáu thanh ph(cid:1191)i phân bi(cid:1227)t. Ðã (cid:255)ành thanh ch(cid:1229) là y(cid:1219)u t(cid:1237) ng(cid:1267) âm không

thu(cid:1245)c v(cid:1221) thành ph(cid:1195)n âm v(cid:1231) tuy(cid:1219)n tính, nh(cid:1133)ng thanh ti(cid:1219)ng Vi(cid:1227)t không h(cid:1207)n ch(cid:1229)

là m(cid:1245)t y(cid:1219)u t(cid:1237) ngôn (cid:255)(cid:76)(cid:1227)u mang tính cách hoa m(cid:429) cho âm ti(cid:1219)t, mà là m(cid:1245)t thành

ph(cid:1195)n không th(cid:1223) thi(cid:1219)u (cid:255)(cid:1133)(cid:1255)c khi phát âm m(cid:1245)t âm ti(cid:1219)t. Nói cách khác, âm ti(cid:1219)t

ti(cid:1219)ng Vi(cid:1227)t ch(cid:1133)a hoàn ch(cid:1229)nh khi ch(cid:1133)a (cid:255)(cid:1133)(cid:1255)c (cid:255)(cid:1231)nh thanh. Có l(cid:1217) các nhà sáng ch(cid:1219)

17

ra ch(cid:1267) vi(cid:1219)t theo b(cid:1191)ng ch(cid:1267) cái Latin mà ta th(cid:1133)(cid:1249)ng g(cid:1233)i quen là "ch(cid:1267) qu(cid:1237)c ng(cid:1267)"

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

(cid:255)ã hi(cid:1223)u r(cid:1193)t rõ tính cách b(cid:1193)t kh(cid:1191) phân c(cid:1259)a thanh (cid:255)(cid:1237)i v(cid:1247)i âm ti(cid:1219)t ti(cid:1219)ng Vi(cid:1227)t, cho

nên các v(cid:1231)(cid:3)(cid:255)ã dùng (cid:255)(cid:1219)n nh(cid:1267)ng kí hi(cid:1227)u (cid:255)(cid:1223) ch(cid:1229) th(cid:1231) các b(cid:1201)c thanh t(cid:1133)(cid:1131)ng (cid:1261)ng. Và

(cid:255)ây c(cid:458)ng là (cid:255)(cid:1211)c (cid:255)(cid:76)(cid:1223)m n(cid:1241)i b(cid:1201)t c(cid:1259)a ti(cid:1219)ng Vi(cid:1227)t.

2.1.2. (cid:55)(cid:1263)

2.1.2.1. Các quan ni(cid:1227)m v(cid:1221) t(cid:1263)

Có 1 s(cid:1237)(cid:3)(cid:255)(cid:1231)nh ngh(cid:429)a (cid:255)(cid:76)(cid:1223)n hình v(cid:1221) t(cid:1263) nh(cid:1133) sau [1] :

- Theo L.Bloomfield, thì t(cid:1263) là (cid:179)(cid:80)(cid:865)t hình thái t(cid:889) do nh(cid:855) nh(cid:813)(cid:87)(cid:180).

- Theo Solncev thì (cid:179)(cid:55)(cid:883) là (cid:255)(cid:751)n v(cid:851) ngôn ng(cid:887) có tính hai m(cid:831)t: âm và ngh(cid:429)a.

(cid:55)(cid:883) có kh(cid:811) n(cid:259)ng (cid:255)(cid:865)c l(cid:821)p v(cid:841) cú pháp khi s(cid:885) d(cid:877)ng trong l(cid:869)(cid:76)(cid:180).

- Theo B.Golovin, thì t(cid:1263) là (cid:179)(cid:255)(cid:751)n v(cid:851) nh(cid:855) nh(cid:813)t có ngh(cid:429)a c(cid:879)a ngôn ng(cid:887), (cid:255)(cid:753)(cid:875)c

(cid:89)(cid:821)n d(cid:877)ng (cid:255)(cid:865)c l(cid:821)p, tái hi(cid:847)n t(cid:889) do trong l(cid:869)i nói (cid:255)(cid:843) xây d(cid:889)ng nên câu(cid:180). (cid:264)ây

(cid:70)(cid:458)ng chính là (cid:255)(cid:1231)nh ngh(cid:429)a mà trong ngôn ng(cid:1267) h(cid:1233)c (cid:255)(cid:1189)i c(cid:1133)(cid:1131)ng hay s(cid:1265) d(cid:1257)ng.

Trong n(cid:1245)i dung lu(cid:1201)n v(cid:259)n này, ta quan tâm t(cid:1247)i 3 thu(cid:1201)t ng(cid:1267) trong ngôn ng(cid:1267)

(cid:255)(cid:1189)i c(cid:1133)(cid:1131)ng (cid:255)(cid:1223) nh(cid:1201)n di(cid:1227)n t(cid:1263) :

1. (cid:55)(cid:883) ng(cid:887) âm : (cid:255)ó là nh(cid:1267)ng (cid:255)(cid:1131)n v(cid:1231)(cid:3)(cid:255)(cid:1133)(cid:1255)c th(cid:1237)ng nh(cid:1193)t v(cid:1247)i hi(cid:1227)n t(cid:1133)(cid:1255)ng

ng(cid:1267) âm nào (cid:255)ó. (cid:264)(cid:1237)i v(cid:1247)i ti(cid:1219)ng Vi(cid:1227)t, (cid:255)ó chính là nh(cid:1267)ng âm ti(cid:1219)t, hay

còn g(cid:1233)i là “ti(cid:1219)ng”, “ti(cid:1219)ng m(cid:1245)t”.

2. (cid:55)(cid:883) chính t(cid:811) : (cid:255)ó là nh(cid:1267)ng kho(cid:1191)ng cách gi(cid:1267)a 2 ch(cid:1243) trên v(cid:259)n t(cid:1269), t(cid:1261)c là

nh(cid:1267)ng (cid:255)(cid:1131)n v(cid:1231)(cid:3)(cid:255)(cid:1133)(cid:1255)c vi(cid:1219)t li(cid:1221)n thành kh(cid:1237)i, (cid:255)(cid:1237)i v(cid:1247)i ti(cid:1219)ng Vi(cid:1227)t, (cid:255)ó chính

là “ch(cid:1267)”

3. (cid:55)(cid:883) t(cid:883)(cid:3)(cid:255)(cid:76)(cid:843)n h(cid:853)c : (cid:255)ó là (cid:255)(cid:1131)n v(cid:1231) mà c(cid:259)n c(cid:1261) vào (cid:255)(cid:1211)c (cid:255)(cid:76)(cid:1223)m ý ngh(cid:429)a c(cid:1259)a

nó ph(cid:1191)i x(cid:1219)p riêng trong t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n.

2.1.2.2. Tiêu chí nh(cid:1201)n di(cid:1227)n “t(cid:1263)” ti(cid:1219)ng Vi(cid:1227)t

(cid:55)(cid:1263) r(cid:1193)t nhi(cid:1221)u quan ni(cid:1227)m c(cid:458)ng nh(cid:1133) các (cid:255)(cid:1231)nh ngh(cid:429)a v(cid:1221) “t(cid:1263) ti(cid:1219)ng Vi(cid:1227)t”, ta có

18

th(cid:1223) rút ra tiêu chu(cid:1197)n mà các nhà Vi(cid:1227)t ng(cid:1267) h(cid:1233)c (cid:255)ã d(cid:1269)a vào (cid:255)ó khi nh(cid:1201)n di(cid:1227)n t(cid:1263)

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

ti(cid:1219)ng Vi(cid:1227)t [3]. Các tiêu chu(cid:1197)n này chung qui ta có th(cid:1223) phân thành : các tiêu

chu(cid:1197)n v(cid:1221) hình th(cid:1261)c và các tiêu chu(cid:1197)n v(cid:1221) n(cid:1245)i dung.

2.1.2.2.1. Các tiêu chu(cid:1197)n v(cid:1221) hình th(cid:1261)c

Tính c(cid:857)(cid:3)(cid:255)(cid:851)nh : tính v(cid:1267)ng ch(cid:1203)c v(cid:1221) c(cid:1193)u t(cid:1189)o, không th(cid:1223) chêm – xen (cid:255)(cid:1133)(cid:1255)c

Tính (cid:255)(cid:1245)c l(cid:1201)p : các nhà Vi(cid:1227)t ng(cid:1267) h(cid:1233)c hay dùng tiêu chu(cid:1197)n tính (cid:255)(cid:1245)c l(cid:1201)p (cid:255)(cid:1223)

phân bi(cid:1227)t t(cid:1263) ((cid:255)(cid:1131)n v(cid:1231) có ngh(cid:429)a và (cid:255)(cid:1245)c l(cid:1201)p) v(cid:1247)i hình v(cid:1231) ((cid:255)(cid:1131)n v(cid:1231) có ngh(cid:429)a và

không (cid:255)(cid:1245)c l(cid:1201)p). Tính (cid:255)(cid:1245)c l(cid:1201)p còn (cid:255)(cid:1133)(cid:1255)c g(cid:1233)i là kh(cid:1191) n(cid:259)ng k(cid:1219)t h(cid:1255)p (t(cid:1269) do – h(cid:1189)n

ch(cid:1219))

Tính t(cid:883) lo(cid:809)i và quan h(cid:847) cú pháp : trong ng(cid:1267)/câu, t(cid:1263)(cid:3) (cid:255)(cid:1191)m nh(cid:1201)n nh(cid:1267)ng

ch(cid:1261)c n(cid:259)ng cú pháp nh(cid:1193)t (cid:255)(cid:1231)nh, nên m(cid:1233)i t(cid:1263)(cid:3)(cid:255)(cid:1221)u ph(cid:1191)i mang m(cid:1245)t t(cid:1263) lo(cid:1189)i nào (cid:255)ó,

còn hình v(cid:1231) thì không có tính ch(cid:1193)t t(cid:1263) lo(cid:1189)i. Quan h(cid:1227) gi(cid:1267)a các t(cid:1263) là quan h(cid:1227) cú

pháp, còn quan h(cid:1227) gi(cid:1267)a các hình v(cid:1231) c(cid:1259)a t(cid:1263) không ph(cid:1191)i là quan h(cid:1227) cú pháp.

2.1.2.2.2. Các tiêu chu(cid:1197)n v(cid:1221) n(cid:1245)i dung

Ch(cid:881)c n(cid:259)ng (cid:255)(cid:851)nh danh : ch(cid:1261)c n(cid:259)ng này (cid:255)(cid:1133)(cid:1255)c dùng (cid:255)(cid:1223) xác (cid:255)(cid:1231)nh t(cid:1133) cách c(cid:1259)a

(cid:87)(cid:1263) (t(cid:1263) th(cid:1269)c), coi (cid:255)ó là (cid:255)(cid:1211)c tr(cid:1133)ng phân bi(cid:1227)t gi(cid:1267)a “t(cid:1263)” v(cid:1247)i “hình v(cid:1231)”

Bi(cid:843)u th(cid:851) khái ni(cid:847)m : vì t(cid:1263) v(cid:1247)i khái ni(cid:1227)m không ph(cid:1191)i là m(cid:1245)t: có nh(cid:1267)ng khái

ni(cid:1227)m c(cid:1195)n bi(cid:1223)u th(cid:1231) b(cid:1205)ng nhi(cid:1221)u t(cid:1263), và có nh(cid:1267)ng t(cid:1263) không bi(cid:1223)u th(cid:1231) khái ni(cid:1227)m.

Ý ngh(cid:429)a bi(cid:843)u ni(cid:847)m : vì ý ngh(cid:429)a c(cid:1259)a t(cid:1263) và khái ni(cid:1227)m không trùng nhau, vì

(cid:89)(cid:1201)y, ng(cid:1133)(cid:1249)i ta c(cid:1195)n phân bi(cid:1227)t ý ngh(cid:429)a t(cid:1263) v(cid:1269)ng và ý ngh(cid:429)a ng(cid:1267) pháp.

Hoàn ch(cid:849)nh v(cid:841) ngh(cid:429)a : (cid:255)ây là tiêu chu(cid:1197)n quan tr(cid:1233)ng, (cid:255)(cid:1133)(cid:1255)c (cid:255)a s(cid:1237) các nhà

Vi(cid:1227)t ng(cid:1267) h(cid:1233)c ch(cid:1193)p nh(cid:1201)n trong vi(cid:1227)c xác (cid:255)(cid:1231)nh t(cid:1133) cách c(cid:1259)a t(cid:1263). Tiêu chu(cid:1197)n này

19

liên quan (cid:255)(cid:1219)n tính thành ng(cid:1267) và tính võ (cid:255)oán.

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

2.2. Tách t(cid:1263)

Bài toán tách t(cid:1263) cho ngôn ng(cid:1267)(cid:3)(cid:255)(cid:1131)n l(cid:1201)p (cid:255)ã (cid:255)(cid:1133)(cid:1255)c (cid:255)(cid:1211)t ra t(cid:1263) lâu, ch(cid:1259) y(cid:1219)u (cid:255)(cid:1223) gi(cid:1191)i quy(cid:1219)t

cho ti(cid:1219)ng Trung Qu(cid:1237)c, ti(cid:1219)ng Nh(cid:1201)t. Các thu(cid:1201)t toán tách t(cid:1263) có th(cid:1223)(cid:3) (cid:255)(cid:1133)(cid:1255)c phân lo(cid:1189)i nh(cid:1133)

sau:

v (cid:39)(cid:1269)a theo lu(cid:1201)t. Bao g(cid:1239)m các cách sau:

- Longest Matching, Greedy Matching Models (Yuen Poowarawan), 1986; Sampan

Rarurom, 1991).

- Mô hình kh(cid:1247)p t(cid:1237)i (cid:255)a. Mô hình này (cid:255)(cid:1133)(cid:1255)c chia thành “Kh(cid:1247)p t(cid:1237)i (cid:255)a ti(cid:1219)n và kh(cid:1247)p t(cid:1237)i

(cid:255)a lùi”. (cid:264)(cid:1237)i v(cid:1247)i ph(cid:1133)(cid:1131)ng pháp này thì m(cid:1245)t t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n hoàn ch(cid:1229)nh là không th(cid:1223) thi(cid:1219)u.

(cid:48)(cid:1245)t t(cid:1263)(cid:3) (cid:255)(cid:76)(cid:1223)n không hoàn ch(cid:1229)nh s(cid:1217) gi(cid:1191)m hi(cid:1227)u su(cid:1193)t c(cid:1259)a thu(cid:1201)t toán. Tuy nhiên, d(cid:1225)

th(cid:1193)y là khó có th(cid:1223) có m(cid:1245)t t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n hoàn ch(cid:1229)nh ((cid:255)(cid:1211)c bi(cid:1227)t khi các ngôn ng(cid:1267) v(cid:1199)n còn

(cid:255)(cid:1133)(cid:1255)c ti(cid:1219)p t(cid:1257)c phát tri(cid:1223)n h(cid:1205)ng ngày trong th(cid:1249)i (cid:255)(cid:1189)i ngày nay). Mô hình này tu(cid:484)

thu(cid:1245)c nhi(cid:1221)u vào t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n.

v Dùng th(cid:1237)ng kê:

Gi(cid:1191)i pháp này d(cid:1269)a vào ng(cid:1267) c(cid:1191)nh t(cid:1263) xung quanh (cid:255)(cid:1223)(cid:3)(cid:255)(cid:1133)a ra quy(cid:1219)t (cid:255)(cid:1231)nh thích h(cid:1255)p.

Có hai v(cid:1193)n (cid:255)(cid:1221) c(cid:1195)n (cid:255)(cid:1133)(cid:1255)c gi(cid:1191)i quy(cid:1219)t (cid:255)(cid:1237)i v(cid:1247)i gi(cid:1191)i pháp này : (cid:255)(cid:1245) r(cid:1245)ng ng(cid:1267) c(cid:1191)nh, và cách áp

(cid:71)(cid:1257)ng th(cid:1237)ng kê. Ng(cid:1267) c(cid:1191)nh càng r(cid:1245)ng thì thu(cid:1201)t toán càng ph(cid:1261)c t(cid:1189)p.

Cho dù (cid:255)(cid:1245) r(cid:1245)ng ng(cid:1267) c(cid:1191)nh th(cid:1219) nào, luôn có th(cid:1223) áp d(cid:1257)ng mô hình first-order HMM.

Tuy nhiên gi(cid:1191)i pháp này ph(cid:1257) thu(cid:1245)c r(cid:1193)t nhi(cid:1221)u vào ng(cid:1267) li(cid:1227)u hu(cid:1193)n lu(cid:1271)(cid:1227)n. K(cid:1219)t qu(cid:1191) hu(cid:1193)n

luy(cid:1227)n trên ng(cid:1267) li(cid:1227)u chính tr(cid:1231) khó có th(cid:1223) áp d(cid:1257)ng trên các tài li(cid:1227)u v(cid:259)n h(cid:1233)c và ng(cid:1133)(cid:1255)c l(cid:1189)i.

Thêm vào (cid:255)ó, có nh(cid:1267)ng t(cid:1263) có xác su(cid:1193)t r(cid:1193)t cao, nhung ch(cid:1229) có th(cid:1223) ch(cid:1261)c n(cid:259)ng v(cid:1221) m(cid:1211)t ng(cid:1267)

pháp, làm gi(cid:1191)m vai trò c(cid:1259)a xác su(cid:1193)t.

v Cách khác:

(cid:43)(cid:1195)u h(cid:1219)t các gi(cid:1191)i pháp khác là s(cid:1269) lai t(cid:1189)o gi(cid:1267)a các mô hình trên và các mô hình

ngôn ng(cid:1267) h(cid:1233)c nh(cid:1133) WFST, TBL. Th(cid:1249)i gian x(cid:1265) lý các gi(cid:1191)i pháp này tr(cid:1251) nên (cid:255)áng k(cid:1223),

20

nh(cid:1133)ng (cid:255)(cid:1245) chính xác (cid:255)(cid:1189)t (cid:255)(cid:1133)(cid:1255)c khá cao.

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

Tri th(cid:1261)c v(cid:1221) ngôn ng(cid:1267), th(cid:1133)(cid:1249)ng áp d(cid:1257)ng cho các mô hình d(cid:1269)a trên lu(cid:1201)t, hi(cid:1219)m khi

(cid:255)(cid:1133)(cid:1255)c áp d(cid:1257)ng cho nh(cid:1267)ng mô hình trên.

(cid:39)(cid:1133)(cid:1247)i (cid:255)ây là mô t(cid:1191) 2 ph(cid:1133)(cid:1131)ng pháp tách t(cid:1263) th(cid:1133)(cid:1249)ng s(cid:1265) d(cid:1257)ng :

2.2.1. Kh(cid:1247)p t(cid:1237)i (cid:255)a (LRMM – Left Right Max Matching)

Thu(cid:1201)t toán so kh(cid:1247)p t(cid:1237)i (cid:255)a ho(cid:1189)t (cid:255)(cid:1245)ng nh(cid:1133) tên c(cid:1259)a chính nó. Thu(cid:1201)t toán gi(cid:1191)i quy(cid:1219)t

bài toán tách t(cid:1263) nào có nhi(cid:1221)u t(cid:1263) nh(cid:1193)t (so kh(cid:1247)p (cid:255)(cid:1133)(cid:1255)c nhi(cid:1221)u nh(cid:1193)t). Thu(cid:1201)t toán (cid:255)(cid:1133)(cid:1255)c áp

(cid:71)(cid:1257)ng (cid:255)(cid:1223) xây d(cid:1269)ng ch(cid:1133)(cid:1131)ng trình tách t(cid:1263) ti(cid:1219)ng Trung Qu(cid:1237)c MMSEG. Thu(cid:1201)t toán này có

nhi(cid:1221)u bi(cid:1219)n th(cid:1223) khác nhau.

(cid:216) (cid:39)(cid:1189)ng (cid:255)(cid:1131)n gi(cid:1191)n, (cid:255)(cid:1133)(cid:1255)c dung (cid:255)(cid:1223) gi(cid:1191)i quy(cid:1219)t v(cid:1193)n (cid:255)(cid:1221) nh(cid:1201)p nh(cid:1205)ng t(cid:1263)(cid:3)(cid:255)(cid:1131)n. Gi(cid:1191) s(cid:1265) có

(cid:80)(cid:1245)t chu(cid:1243)i ký t(cid:1269) (t(cid:1133)(cid:1131)ng (cid:255)(cid:1133)(cid:1131)ng v(cid:1247)i chu(cid:1243)i ti(cid:1219)ng Vi(cid:1227)t trong ti(cid:1219)ng Vi(cid:1227)t) C1, C2

,…C3. Ta b(cid:1203)t (cid:255)(cid:1195)u t(cid:1263)(cid:3)(cid:255)(cid:1195)u chu(cid:1243)i. (cid:264)(cid:1195)u tiên, ki(cid:1223)m tra xem C1 có ph(cid:1191)i là t(cid:1263) không,

sau (cid:255)ó ki(cid:1223)m tra xem C1C2 có ph(cid:1191)i là t(cid:1263) hay không. Ti(cid:1219)p t(cid:1257)c làm cho (cid:255)(cid:1219)n khi tìm

(cid:255)(cid:1133)(cid:1255)c t(cid:1263) dài nh(cid:1193)t. T(cid:1263) có v(cid:1217) h(cid:1255)p lý nh(cid:1193)t là t(cid:1263) dài nh(cid:1193)t. Ch(cid:1233)n t(cid:1263)(cid:3)(cid:255)ó, sau (cid:255)ó tìm ti(cid:1219)p

nh(cid:1133) trên trên nh(cid:1267)ng t(cid:1263) còn l(cid:1189)i, cho (cid:255)(cid:1219)n khi xác (cid:255)(cid:1231)nh (cid:255)(cid:1133)(cid:1255)c toàn b(cid:1245) chu(cid:1243)i d(cid:1267) li(cid:1227)u.

(cid:216) (cid:39)(cid:1189)ng ph(cid:1261)c t(cid:1189)p. Quy t(cid:1203)c c(cid:1259)a d(cid:1189)ng này là phân (cid:255)(cid:82)(cid:1189)n có v(cid:1217) h(cid:1255)p lý nh(cid:1193)t là (cid:255)(cid:82)(cid:1189)n 3

(cid:87)(cid:1263) v(cid:1247)i chi(cid:1221)u dài t(cid:1237)i (cid:255)a. Thu(cid:1201)t toán b(cid:1203)t (cid:255)(cid:1195)u nh(cid:1133) d(cid:1189)ng (cid:255)(cid:1131)n gi(cid:1191)n. N(cid:1219)u phát hi(cid:1227)n ra

nh(cid:1267)ng cách tách t(cid:1263) gây nh(cid:1201)p nh(cid:1205)ng (ví d(cid:1257) C1 là t(cid:1263) và C1C2 (cid:70)(cid:458)ng là t(cid:1263)), ta xem

các ch(cid:1267) k(cid:1219) ti(cid:1219)p (cid:255)(cid:1223) tìm t(cid:1193)t c(cid:1191) các (cid:255)(cid:82)(cid:1189)n ba t(cid:1263) có th(cid:1223) có b(cid:1203)t (cid:255)(cid:1195)u v(cid:1247)i C1 ho(cid:1211)c C1C2.

Ví d(cid:877) 2-2 : ta (cid:255)(cid:1133)(cid:1255)c nh(cid:1267)ng (cid:255)(cid:82)(cid:1189)n sau:

- C1 C2 C3C4.

- C1C2 C3C4 C5

- C1C2 C3C4 C5C6

Chu(cid:1243)i dài nh(cid:1193)t s(cid:1217) là chu(cid:1243)i th(cid:1261) ba. V(cid:1201)y t(cid:1263)(cid:3)(cid:255)(cid:1195)u tiên c(cid:1259)a chu(cid:1243)i th(cid:1261) ba (C1C2) s(cid:1217)

(cid:255)(cid:1133)(cid:1255)c ch(cid:1233)n. Th(cid:1269)c hi(cid:1227)n l(cid:1189)i các b(cid:1133)(cid:1247)c cho (cid:255)(cid:1219)n khi (cid:255)(cid:1133)(cid:1255)c chu(cid:1243)i t(cid:1263) hoàn ch(cid:1229)nh. Cách này (cid:255)(cid:1189)t

(cid:255)(cid:1133)(cid:1255)c (cid:255)(cid:1245) chính xác 99.69%.

Mô hình s(cid:1265) d(cid:1257)ng ph(cid:1133)(cid:1131)ng pháp tách t(cid:1263) LRMM d(cid:1189)ng (cid:255)(cid:1131)n gi(cid:1191)n. Mô hình này v(cid:1263)a

21

(cid:255)(cid:1131)n gi(cid:1191)n, nh(cid:1133)ng mang l(cid:1189)i (cid:255)(cid:1245) chính xác cao.

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

2.2.2. Mô hình m(cid:1189)ng WFST và m(cid:1189)ng n(cid:1131)-ron

WFST (cid:255)ã (cid:255)(cid:1133)(cid:1255)c áp d(cid:1257)ng (cid:255)(cid:1223) tách t(cid:1263) ti(cid:1219)ng Trung Qu(cid:1237)c. Ý t(cid:1133)(cid:1251)ng c(cid:1131) b(cid:1191)n là áp d(cid:1257)ng

WFST k(cid:1219)t h(cid:1255)p v(cid:1247)i tr(cid:1233)ng s(cid:1237) là xác su(cid:1193)t xu(cid:1193)t hi(cid:1227)n c(cid:1259)a m(cid:1243)i t(cid:1263) trong ng(cid:1267) li(cid:1227)u. Dùng

WFST (cid:255)(cid:1223) duy(cid:1227)t qua câu c(cid:1195)n xét. Cách duy(cid:1227)t có tr(cid:1233)ng s(cid:1237) l(cid:1247)n nh(cid:1193)t s(cid:1217) là cách tách t(cid:1263)

(cid:255)(cid:1133)(cid:1255)c ch(cid:1233)n. Gi(cid:1191)i pháp này c(cid:458)ng (cid:255)ã (cid:255)(cid:1133)(cid:1255)c áp d(cid:1257)ng trong [5] kèm v(cid:1247)i m(cid:1189)ng n(cid:1131)-ron (cid:255)(cid:1223)

kh(cid:1265) nh(cid:1201)p nh(cid:1205)ng.

Mô hình tách t(cid:1263) trong VnMark s(cid:1265) d(cid:1257)ng chính là mô hình WFST này (Xem chi ti(cid:1219)t

(cid:75)(cid:1131)n trong [1] trang 99-104, hay trong [5])

2.3. Tách câu

Trong m(cid:1245)t v(cid:259)n b(cid:1191)n ti(cid:1219)ng Anh hay b(cid:1205)ng b(cid:1193)t k(cid:484) m(cid:1245)t ngôn ng(cid:1267) thông d(cid:1257)ng nào

khác, thông th(cid:1133)(cid:1249)ng thì ta ch(cid:1229) dùng d(cid:1193)u ch(cid:1193)m (.), ch(cid:1193)m than (!), ch(cid:1193)m h(cid:1235)i(?) và m(cid:1245)t s(cid:1237)

(cid:71)(cid:1193)u khác n(cid:1267)a (cid:255)(cid:1223) nh(cid:1201)n bi(cid:1219)t k(cid:1219)t thúc câu. (Ta g(cid:1233)i nh(cid:1267)ng d(cid:1193)u này là nh(cid:1267)ng d(cid:1193)u báo hi(cid:1227)u

(cid:78)(cid:1219)t thúc câu hay d(cid:1193)u ch(cid:1193)m câu). Tuy nhiên, do tính nh(cid:1201)p nh(cid:1205)ng c(cid:1259)a d(cid:1193)u báo hi(cid:1227)u k(cid:1219)t

thúc câu (ch(cid:1207)ng h(cid:1189)n nh(cid:1133) d(cid:1193)u k(cid:1219)t thúc câu trong t(cid:1263) vi(cid:1219)t t(cid:1203)t,…) nên vi(cid:1227)c xác (cid:255)(cid:1231)nh ranh

gi(cid:1247)i câu không (cid:255)(cid:1131)n gi(cid:1191)n nh(cid:1133) chúng ta ngh(cid:429). Ví d(cid:1257) nh(cid:1133) d(cid:1193)u ch(cid:1193)m, nó có th(cid:1223) bi(cid:1223)u th(cid:1231) nh(cid:1133)

(cid:80)(cid:1245)t d(cid:1193)u ch(cid:1193)m th(cid:1201)p phân, m(cid:1245)t c(cid:1257)m t(cid:1263) k(cid:1219)t thúc, s(cid:1269) k(cid:1219)t thúc câu v(cid:259)n ho(cid:1211)c ngay c(cid:1191) t(cid:1263) vi(cid:1219)t

(cid:87)(cid:1203)t n(cid:1205)m (cid:1251) cu(cid:1237)i câu. M(cid:1245)t d(cid:1193)u ch(cid:1193)m h(cid:1235)i hay d(cid:1193)u ch(cid:1193)m than có th(cid:1223) xu(cid:1193)t hi(cid:1227)n trong d(cid:1193)u

ngo(cid:1211)c (cid:255)(cid:1131)n, ngo(cid:1211)c kép hay c(cid:458)ng nh(cid:1133)(cid:3)(cid:1251) cu(cid:1237)i câu. S(cid:1269) m(cid:1201)p m(cid:1249) c(cid:1259)a các d(cid:1193)u câu này (cid:255)(cid:1133)(cid:1255)c

th(cid:1223) hi(cid:1227)n qua các ví d(cid:1257) sau:

Ví d(cid:877) 2-3:

1. The group included Dr. J.M. Freeman and T. Boone Pickens Jr.

2. “This issue crosses party lines and crosses philosophical lines!” said Rep.

John Rowland (R., Conn.).

3. It was due Friday 5 p.m. Saturday would be too late.

22

4. She has an appointment at 5 p.m. Saturday to get her car fixed.

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

Trong tr(cid:1133)(cid:1249)ng h(cid:1255)p 1 và 2, t(cid:1263) n(cid:1205)m ngay tr(cid:1133)(cid:1247)c ho(cid:1211)c n(cid:1205)m ngay sau d(cid:1193)u ch(cid:1193)m câu cho ta

nh(cid:1267)ng thông tin quan tr(cid:1233)ng v(cid:1221) vai trò c(cid:1259)a d(cid:1193)u trong câu. Tuy nhiên, b(cid:1245) ph(cid:1201)n tách câu

(cid:70)(cid:1195)n ph(cid:1191)i có nhi(cid:1221)u thông tin v(cid:1221) ng(cid:1267) c(cid:1191)nh h(cid:1131)n trong tr(cid:1133)(cid:1249)ng h(cid:1255)p vi(cid:1227)c ch(cid:1193)m câu xu(cid:1193)t hi(cid:1227)n

(cid:1251) m(cid:1245)t câu con trong d(cid:1193)u ngo(cid:1211)c (cid:255)(cid:1131)n ho(cid:1211)c ngo(cid:1211)c kép, nh(cid:1133) trong tr(cid:1133)(cid:1249)ng h(cid:1255)p 2; hay khi

ch(cid:1267) vi(cid:1219)t t(cid:1203)t xu(cid:1193)t hi(cid:1227)n (cid:1251) cu(cid:1237)i câu nh(cid:1133) trong tr(cid:1133)(cid:1249)ng h(cid:1255)p 3, 4. (cid:264)(cid:1223) nh(cid:1201)n di(cid:1227)n d(cid:1193)u ch(cid:1193)m

câu, ng(cid:1133)(cid:1249)i ta có th(cid:1223) dùng các heuristics ho(cid:1211)c các mô hình h(cid:1233)c ph(cid:1261)c t(cid:1189)p h(cid:1131)n, nh(cid:1133) :

(cid:80)(cid:1189)ng neural, TBL, Maximum Entropy.

2.3.1. Tách câu b(cid:1205)ng Heristics.

Sau khi nh(cid:1201)n (cid:255)(cid:82)(cid:1189)n v(cid:259)n b(cid:1191)n (cid:255)ã (cid:255)(cid:1133)(cid:1255)c l(cid:1233)c các ký t(cid:1269) d(cid:1133) th(cid:1263)a, các ký t(cid:1269) ph(cid:1257), b(cid:1245)

ph(cid:1201)n tách câu b(cid:1203)t (cid:255)(cid:1195)u phân tích d(cid:1269)a trên cách ch(cid:1193)m câu và ng(cid:1267) ngh(cid:429)a m(cid:1245)t s(cid:1237) t(cid:1263)(cid:3)(cid:255)(cid:1223) tách

ra các câu riêng bi(cid:1227)t.

2.3.1.1. (cid:59)(cid:1265) lý d(cid:1193)u ch(cid:1193)m.

(cid:39)(cid:1193)u ch(cid:1193)m “.” là d(cid:1193)u có nhi(cid:1221)u tr(cid:1133)(cid:1249)ng h(cid:1255)p m(cid:1131) h(cid:1239) nh(cid:1193)t. Sau (cid:255)ây là các tr(cid:1133)(cid:1249)ng h(cid:1255)p

(cid:71)(cid:1193)u ch(cid:1193)m xu(cid:1193)t hi(cid:1227)n:

1. (cid:39)(cid:1193)u ch(cid:1193)m k(cid:1219)t thúc câu.

2. (cid:39)(cid:1193)u ch(cid:1193)m th(cid:1201)p phân trong ch(cid:1267) s(cid:1237) (1,234.567)

3. (cid:39)(cid:1193)u ch(cid:1193)m bi(cid:1223)u th(cid:1231) s(cid:1269) vi(cid:1219)t t(cid:1203)t (Mr., Dr., ...)

4. (cid:39)(cid:1193)u ch(cid:1193)m trong các tr(cid:1133)(cid:1249)ng h(cid:1255)p khác nh(cid:1133) s(cid:1237) tài kho(cid:1191)n, email

(abcd@yahoo.com), d(cid:1193)u ch(cid:1193)m trong các (cid:255)(cid:1231)a ch(cid:1229) website (www.is-

edu.hcmuns.edu.vn).

(cid:264)(cid:1223) có th(cid:1223) phân bi(cid:1227)t (cid:255)(cid:1133)(cid:1255)c các tr(cid:1133)(cid:1249)ng h(cid:1255)p trên, ta có th(cid:1223) d(cid:1269)a vào m(cid:1245)t s(cid:1237)(cid:3)(cid:255)(cid:1211)c tr(cid:1133)ng

riêng trong cách trình bày c(cid:1259)a t(cid:1263)ng tr(cid:1133)(cid:1249)ng h(cid:1255)p.

1. (cid:49)(cid:1219)u d(cid:1193)u ch(cid:1193)m câu không thu(cid:1245)c các tr(cid:1133)(cid:1249)ng h(cid:1255)p còn l(cid:1189)i (2,3,4) thì d(cid:1193)u hi(cid:1227)u (cid:255)(cid:1223)

nh(cid:1201)n bi(cid:1219)t k(cid:1219)t thúc câu s(cid:1217) là : “luôn luôn có ít nh(cid:1193)t m(cid:1245)t kho(cid:1191)ng tr(cid:1203)ng sau d(cid:1193)u

ch(cid:1193)m và ký t(cid:1269) ti(cid:1219)p theo s(cid:1217) là ch(cid:1267) cái s(cid:1217)(cid:3)(cid:255)(cid:1133)(cid:1255)c vi(cid:1219)t hoa”.

2. Ta có th(cid:1223) nh(cid:1201)n bi(cid:1219)t d(cid:1193)u ch(cid:1193)m th(cid:1201)p phân b(cid:1205)ng cách (cid:255)(cid:1233)c toàn b(cid:1245) ph(cid:1195)n li(cid:1221)n tr(cid:1133)(cid:1247)c

23

và ph(cid:1195)n li(cid:1221)n sau d(cid:1193)u ch(cid:1193)m (cid:255)(cid:1223) phát hi(cid:1227)n s(cid:1237) có d(cid:1193)u ch(cid:1193)m th(cid:1201)p phân.

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

3. (cid:264)(cid:1223) nh(cid:1201)n bi(cid:1219)t d(cid:1193)u ch(cid:1193)m trong tr(cid:1133)(cid:1249)ng h(cid:1255)p các t(cid:1263) vi(cid:1219)t t(cid:1203)t, ta xây d(cid:1269)ng m(cid:1245)t danh

sách các t(cid:1263) vi(cid:1219)t t(cid:1203)t (cid:255)(cid:1223) tra c(cid:1261)u khi c(cid:1195)n.

4. Tr(cid:1133)(cid:1249)ng h(cid:1255)p này là tr(cid:1133)(cid:1249)ng h(cid:1255)p có các cách trình bày (cid:255)a d(cid:1189)ng nh(cid:1193)t, nh(cid:1133)ng v(cid:1199)n có

tính ch(cid:1193)t chung là d(cid:1193)u ch(cid:1193)m không bao gi(cid:1249) n(cid:1205)m cu(cid:1237)i t(cid:1263), luôn (cid:1251) gi(cid:1267)a hai ký t(cid:1269)

nào (cid:255)ó (ngh(cid:429)a là không có kho(cid:1191)ng tr(cid:1203)ng li(cid:1221)n sau) nên có th(cid:1223) d(cid:1225) dàng phân bi(cid:1227)t

(cid:255)(cid:1133)(cid:1255)c.

Nh(cid:1267)ng qui lu(cid:1201)t trên (cid:255)ây là nh(cid:1267)ng qui lu(cid:1201)t chung nh(cid:1193)t trong cách trình bày v(cid:259)n b(cid:1191)n

ti(cid:1219)ng Anh. (cid:264)(cid:1237)i v(cid:1247)i v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t, các tr(cid:1133)(cid:1249)ng h(cid:1255)p c(cid:458)ng g(cid:1195)n nh(cid:1133) th(cid:1219). Do d(cid:1269)a ch(cid:1259)

(cid:92)(cid:1219)u vào cách trình bày v(cid:259)n b(cid:1191)n nên có (cid:255)(cid:76)(cid:1223)m y(cid:1219)u là d(cid:1225) nh(cid:1195)m l(cid:1199)n khi v(cid:259)n b(cid:1191)n (cid:255)(cid:1133)a vào có

cách trình bày khác chu(cid:1197)n và do không hi(cid:1223)u ngh(cid:429)a câu nên không th(cid:1223) phân bi(cid:1227)t m(cid:1245)t s(cid:1237)

tr(cid:1133)(cid:1249)ng h(cid:1255)p m(cid:1131) h(cid:1239) nh(cid:1133) trong ví d(cid:1257) sau:

1. It was due Friday 5p.m. Saturday would be too late.

2. She has an appointment at 5 p.m. Saturday to get her car fixed.

(cid:264)(cid:1223) xác (cid:255)(cid:1231)nh (cid:255)(cid:1133)(cid:1255)c d(cid:1193)u ch(cid:1193)m (in (cid:255)(cid:1201)m) trong 2 tr(cid:1133)(cid:1249)ng h(cid:1255)p trên có ph(cid:1191)i là d(cid:1193)u ch(cid:1193)m

(cid:75)(cid:1219)t câu hay không c(cid:458)ng là m(cid:1245)t vi(cid:1227)c không (cid:255)(cid:1131)n gi(cid:1191)n (cid:255)(cid:1237)i v(cid:1247)i máy. Th(cid:1201)m chí (cid:255)(cid:1237)i v(cid:1247)i

ng(cid:1133)(cid:1249)i mà trình (cid:255)(cid:1245) ti(cid:1219)ng Anh ch(cid:1133)a v(cid:1267)ng. Trong c(cid:1191) hai tr(cid:1133)(cid:1249)ng h(cid:1255)p, t(cid:1263) ngay tr(cid:1133)(cid:1247)c ho(cid:1211)c

ngay sau d(cid:1193)u ch(cid:1193)m câu cho ta nh(cid:1267)ng thông tin quan tr(cid:1233)ng v(cid:1221) vai trò c(cid:1259)a d(cid:1193)u trong câu.

Tuy nhiên, b(cid:1245) ph(cid:1201)n tách câu s(cid:1217) ph(cid:1191)i c(cid:1195)n nhi(cid:1221)u thông tin v(cid:1221) ng(cid:1267) c(cid:1191)nh và cú pháp h(cid:1131)n

trong tr(cid:1133)(cid:1249)ng h(cid:1255)p s(cid:1269) ch(cid:1193)m câu xu(cid:1193)t hi(cid:1227)n (cid:1251) m(cid:1245)t câu con nh(cid:1133) trong tr(cid:1133)(cid:1249)ng h(cid:1255)p 1.

2.3.1.2. (cid:59)(cid:1265) lý d(cid:1193)u ch(cid:1193)m trong ngo(cid:1211)c.

Khi b(cid:1245) tách câu g(cid:1211)p d(cid:1193)u m(cid:1251) ngo(cid:1211)c (cid:255)(cid:1131)n, ho(cid:1211)c ngo(cid:1211)c kép, thì nó s(cid:1217) quét trong

(cid:255)(cid:82)(cid:1189)n v(cid:259)n (cid:255)ang xét (cid:255)(cid:1223) tìm d(cid:1193)u (cid:255)óng t(cid:1133)(cid:1131)ng (cid:1261)ng. N(cid:1219)u tìm th(cid:1193)y, toàn b(cid:1245) ph(cid:1195)n trong ngo(cid:1211)c

(cid:86)(cid:1217)(cid:3)(cid:255)(cid:1133)(cid:1255)c gi(cid:1267) nguyên và tìm d(cid:1193)u k(cid:1219)t thúc câu ti(cid:1219)p theo ngoài d(cid:1193)u ngo(cid:1211)c. N(cid:1219)u không tìm

th(cid:1193)y d(cid:1193)u (cid:255)óng t(cid:1133)(cid:1131)ng (cid:1261)ng, d(cid:1193)u m(cid:1251) s(cid:1217) b(cid:1231) b(cid:1235) qua và x(cid:1265) lý ti(cid:1219)p ký t(cid:1269) sau d(cid:1193)u m(cid:1251) nh(cid:1133) bình

24

th(cid:1133)(cid:1249)ng.

Ch(cid:1133)(cid:1131)ng 3. MÔ HÌNH CÀI (cid:264)(cid:1210)T

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

3.1. Các mô hình thêm d(cid:1193)u (cid:255)ã (cid:255)(cid:1133)(cid:1255)c s(cid:1265) d(cid:1257)ng

3.1.1. VietPad

3.1.1.1. Mô hình thêm d(cid:1193)u ti(cid:1219)ng Vi(cid:1227)t

Hình 3.1.1-7 : L(cid:753)u (cid:255)(cid:859) th(cid:889)c hi(cid:847)n c(cid:879)a mô hình (cid:881)ng d(cid:877)ng trong VietPad

3.1.1.1.1. Ti(cid:1221)n x(cid:1265) lý

26

Chu(cid:1197)n hoá v(cid:259)n b(cid:1191)n theo (cid:255)(cid:1231)nh d(cid:1189)ng mà VietPad quy (cid:255)(cid:1231)nh

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

3.1.1.1.2. Tách token

Vietpad không tách t(cid:1263)ng câu (cid:255)(cid:1223) x(cid:1265) lý, mà vào th(cid:1205)ng vi(cid:1227)c tách ra t(cid:1263)ng token

(cid:80)(cid:1245)t … Token có th(cid:1223) g(cid:1239)m 1 chu(cid:1243)i các kí t(cid:1269) không ph(cid:1191)i là kí t(cid:1269) (nh(cid:1133) : , . ; “ @

# $ …. ) hay 1 chu(cid:1243)i các kí t(cid:1269), hay là “ch(cid:1267)” ti(cid:1219)ng Vi(cid:1227)t.

Ví d(cid:877) 3-1:

Câu “--- Thoi gian troi qua mau ---” s(cid:1217)(cid:3)(cid:255)(cid:1133)(cid:1255)c VietPad tách thành t(cid:1263)ng

token nh(cid:1133) sau :

Token 1: ---\b (\b kí hi(cid:1227)u cho ‘ ’ _ kho(cid:1191)ng tr(cid:1203)ng)

Token 2: Thoi

Token 3: \b

Token 4: gian

Token 5: \b

Token 6: troi

Token 7: \b

Token 8: qua

Token 9: \b

Token 10: mau

Token 11: \b---

3.1.1.1.3. (cid:47)(cid:1193)y ra các t(cid:1263) không d(cid:1193)u, chuy(cid:1223)n thành t(cid:1263) có d(cid:1193)u

(cid:57)(cid:1247)i ph(cid:1133)(cid:1131)ng pháp tách token (cid:255)(cid:1131)n gi(cid:1191)n trên, và thêm ph(cid:1133)(cid:1131)ng pháp tách t(cid:1263)

LRMM (t(cid:1263) có t(cid:1237)i (cid:255)a 3 ti(cid:1219)ng), VietPad l(cid:1193)y ra các t(cid:1263) không d(cid:1193)u, sau (cid:255)ó thông

qua 1 t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n ánh x(cid:1189) 1-1 gi(cid:1267)a t(cid:1263) không d(cid:1193)u và t(cid:1263) có d(cid:1193)u (t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n chuy(cid:1223)n (cid:255)(cid:1241)i),

27

(cid:255)(cid:1223) chuy(cid:1223)n t(cid:1263) không d(cid:1193)u thành có d(cid:1193)u.

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

Ví d(cid:877) 3-2:

Câu “Nhung van de lien quan toi nguoi dong tinh luyen ai duoc ban

bac soi noi trong buoi hop nhom toi hom qua” s(cid:1217)(cid:3)(cid:255)(cid:1133)(cid:1255)c VietPad chuy(cid:1223)n

thành câu có d(cid:1193)u sau thông qua t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n (d(cid:1193)u / th(cid:1223) hi(cid:1227)n s(cid:1269) tách t(cid:1263) c(cid:1259)a VietPad)

“Nh(cid:1133)ng v(cid:1199)n / (cid:255)(cid:1223) / liên quan / tôi ng(cid:1133)(cid:1249)i / (cid:255)(cid:1245)ng t(cid:429)nh / luy(cid:1219)n ái / (cid:255)(cid:1133)(cid:1255)c /

(cid:69)(cid:1195)n b(cid:1189)c / sôi n(cid:1241)i / trong / bu(cid:1241)i / h(cid:1255)p / nhóm / tôi / hôm qua /”

3.1.2. VnMark

3.1.2.1. Mô hình thêm d(cid:1193)u ti(cid:1219)ng Vi(cid:1227)t

(cid:38)(cid:259)n c(cid:1261) vào mô hình n-gram, mô hình (cid:255)ánh d(cid:1193)u t(cid:1269)(cid:3)(cid:255)(cid:1245)ng ti(cid:1219)ng Vi(cid:1227)t (cid:255)(cid:1133)(cid:1255)c

28

tác gi(cid:1191) th(cid:1269)c hi(cid:1227)n theo l(cid:1133)u (cid:255)(cid:1239) sau:

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

29

Hình 3.1.2-8 : (cid:47)(cid:753)u (cid:255)(cid:859) th(cid:889)c hi(cid:847)n c(cid:879)a mô hình n-gram

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

3.1.2.1.1. Ti(cid:1221)n x(cid:1265) lý

Xóa các kho(cid:1191)ng tr(cid:1203)ng th(cid:1263)a. Th(cid:1269)c hi(cid:1227)n các công vi(cid:1227)c chu(cid:1197)n hóa d(cid:1267) li(cid:1227)u nh(cid:1201)p

vào… Thay th(cid:1219) các ký t(cid:1269) t(cid:1133)(cid:1255)ng t(cid:1269).

Theo các th(cid:1237)ng kê v(cid:1221) tâm lý, tác gi(cid:1191) nh(cid:1201)n th(cid:1193)y khi ng(cid:1133)(cid:1249)i s(cid:1265) d(cid:1257)ng (cid:255)ánh ch(cid:1267)

Vi(cid:1227)t không d(cid:1193)u thì ng(cid:1133)(cid:1249)i ta v(cid:1199)n (cid:255)ánh (cid:255)(cid:1133)(cid:1255)c các ký t(cid:1269) vi(cid:1219)t hoa nh(cid:1133) các danh t(cid:1263) riêng.

Do (cid:255)ó, các t(cid:1263) vi(cid:1219)t hoa s(cid:1217) không “th(cid:1133)(cid:1249)ng hóa” (lowercase) và các t(cid:1263) vi(cid:1219)t hoa này s(cid:1217)

(cid:255)(cid:1133)(cid:1255)c c(cid:259)n c(cid:1261)(cid:3)(cid:255)(cid:1223) nh(cid:1201)n d(cid:1189)ng danh t(cid:1263) riêng.

Ví d(cid:877) 3-3:

Da Nang (cid:224)(cid:3)(cid:264)à N(cid:1209)ng.

da nang(cid:224)(cid:3)(cid:255)a n(cid:259)ng

Do (cid:255)ó, tác gi(cid:1191) l(cid:1133)u ý ng(cid:1133)(cid:1249)i dùng v(cid:1221)(cid:3)(cid:255)(cid:1211)c (cid:255)(cid:76)(cid:1223)m này khi s(cid:1265) d(cid:1257)ng ch(cid:1133)(cid:1131)ng trình.

3.1.2.1.2. Tách câu

(cid:38)(cid:259)n c(cid:1261) vào các (cid:255)(cid:1211)c (cid:255)(cid:76)(cid:1223)m c(cid:1259)a ngôn ng(cid:1267) c(cid:1259)a ti(cid:1219)ng Vi(cid:1227)t : các t(cid:1263)(cid:3) (cid:255)(cid:1133)(cid:1255)c cách

nhau b(cid:1251)i các ký t(cid:1269) nh(cid:1133) “.”, “,”, “:”…(cid:255)(cid:1223) tách thành các câu. M(cid:1243)i câu là m(cid:1245)t (cid:255)(cid:1131)n v(cid:1231) x(cid:1265)

lý chính trong ch(cid:1133)(cid:1131)ng trình. Vi(cid:1227)c quy(cid:1219)t (cid:255)(cid:1231)nh câu là (cid:255)(cid:1131)n v(cid:1231) c(cid:1131) b(cid:1191)n là do nhi(cid:1221)u khi ngh(cid:429)a

(cid:70)(cid:1259)a câu s(cid:1217)(cid:3)(cid:255)(cid:1133)(cid:1255)c quy(cid:1219)t (cid:255)(cid:1231)nh s(cid:1269) l(cid:1269)a ch(cid:1233)n v(cid:1221) d(cid:1193)u trong câu.

3.1.2.1.3. Tìm các kh(cid:1191) n(cid:259)ng (cid:255)ánh d(cid:1193)u c(cid:1259)a t(cid:1263), câu

File t(cid:1263)(cid:3) (cid:255)(cid:76)(cid:1223)n (VNMarkDic.txt) s(cid:1217) cung c(cid:1193)p cho chúng ta xác su(cid:1193)t c(cid:1259)a các

nhóm âm ti(cid:1219)t có th(cid:1223) xu(cid:1193)t hi(cid:1227)n trong các v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t. File t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n này s(cid:1217)(cid:3) (cid:255)(cid:1133)(cid:1255)c

trình bày k(cid:1275) h(cid:1131)n trong ph(cid:1195)n sau.

(cid:38)(cid:259)n c(cid:1261) vào t(cid:1201)p tin t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n VNMarkDic.txt, tác gi(cid:1191) có th(cid:1223) t(cid:1189)o ra các tr(cid:1133)(cid:1249)ng

(cid:75)(cid:1255)p có th(cid:1223)(cid:3)(cid:255)ánh d(cid:1193)u c(cid:1259)a các t(cid:1263) trong câu. T(cid:1241) h(cid:1255)p các thành ph(cid:1195)n này s(cid:1217) t(cid:1189)o nên các

câu trong câu (cid:1261)ng viên (cid:255)ã (cid:255)(cid:1133)(cid:1255)c (cid:255)ánh d(cid:1193)u trong ti(cid:1219)ng Vi(cid:1227)t. Tuy nhiên, do c(cid:259)n c(cid:1261) vào

(cid:87)(cid:1201)p tin VNMarkDic.txt nên tác gi(cid:1191) có th(cid:1223) t(cid:1189)o ra s(cid:1237) l(cid:1133)(cid:1255)ng các câu (cid:1261)ng viên không nhi(cid:1221)u

(cid:79)(cid:1203)m.

Ví d(cid:877) 3-4:

30

Câu c(cid:1195)n gán d(cid:1193)u = “Toc do truyen thong se tang cao”.

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

Thông qua t(cid:1201)p tin t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n VNMarkDic.txt , tác gi(cid:1191) có các thông tin sau:

- toc do = “t(cid:1237)c (cid:255)(cid:1245)” 8.68

- truyen = “truy(cid:1221)n” 12.31

- truyen thong = “truy(cid:1221)n th(cid:1237)ng” 12.31

- thong tin = “thông tin” 7.24

- tin = “tin” 7.33

- se = “s(cid:1217)” 6.09

- tang = “t(cid:259)ng” 7.43

- cao = “cao” 6.95

Sau khi t(cid:1241) h(cid:1255)p các t(cid:1263) ta s(cid:1217)(cid:3)(cid:255)(cid:1133)(cid:1255)c 2 tr(cid:1133)(cid:1249)ng h(cid:1255)p sau: Tr(cid:1133)(cid:1249)ng h(cid:1255)p 1 = “T(cid:1237)c (cid:255)(cid:1245) truy(cid:1221)n th(cid:1237)ng tin s(cid:1217) t(cid:259)ng cao.” 48,79 1 Tr(cid:1133)(cid:1249)ng h(cid:1255)p 2 = “T(cid:1237)c (cid:255)(cid:1245) truy(cid:1221)n thông tin s(cid:1217) t(cid:259)ng cao.” 48.70 2

____________________________________________ 1 8.68 + 12.31 + 7.33 + 6.09 + 7.43 + 6.95 = 48.79 2 8.68 + 12.31 + 7.24 + 6.09 + 7.43 + 6.95 = 48.70

_____________________________________________

(cid:46)(cid:1219)t qu(cid:1191) = “T(cid:1237)c (cid:255)(cid:1245) truy(cid:1221)n thông tin s(cid:1217) t(cid:259)ng cao.” 48,70

(câu có t(cid:1195)n s(cid:1237) nh(cid:1235) thì s(cid:1269) th(cid:1133)(cid:1249)ng s(cid:1265) d(cid:1257)ng c(cid:1259)a các t(cid:1263) trong câu càng cao)

3.1.2.2. Mô hình hu(cid:1193)n luy(cid:1227)n

Nh(cid:1133)(cid:3)(cid:255)ã trình bày (cid:1251) ph(cid:1195)n trên, c(cid:1237)t lõi c(cid:1259)a v(cid:1193)n (cid:255)(cid:1221) là n(cid:1245)i dung t(cid:1201)p tin t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n

VNMarkDic.txt. T(cid:1201)p tin này s(cid:1217) ch(cid:1261)a xác su(cid:1193)t các nhóm âm ti(cid:1219)t có th(cid:1223) xu(cid:1193)t hi(cid:1227)n trong

(cid:89)(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t. Xác su(cid:1193)t này (cid:255)(cid:1133)(cid:1255)c tính d(cid:1269)a trên vi(cid:1227)c th(cid:1237)ng kê d(cid:1267) li(cid:1227)u c(cid:1259)a h(cid:1131)n

1.5GB file HTML (cid:255)(cid:1133)(cid:1255)c l(cid:1193)y t(cid:1263) trang www.vnexpress.net.

Khác v(cid:1247)i các mô hình gán d(cid:1193)u ti(cid:1219)ng Vi(cid:1227)t tr(cid:1133)(cid:1247)c (cid:255)ây, t(cid:1201)p tin t(cid:1263)(cid:3) (cid:255)(cid:76)(cid:1223)n không

nh(cid:1267)ng l(cid:1133)u các t(cid:1263) ti(cid:1219)ng Vi(cid:1227)t mà còn l(cid:1133)u các dãy âm ti(cid:1219)t trong ti(cid:1219)ng Vi(cid:1227)t. (cid:264)(cid:76)(cid:1221)u này giúp

31

cho mô hình có th(cid:1223) “vét c(cid:1189)n” các thông tin giúp cho vi(cid:1227)c gán d(cid:1193)u thanh cho các âm ti(cid:1219)t

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

tr(cid:1251) nên chính xác h(cid:1131)n. Ví d(cid:1257) : tôi c(cid:458)ng l(cid:1133)u thêm dãy âm ti(cid:1219)t “tr(cid:1133)(cid:1247)c vi(cid:1227)c”, … vào file

(cid:87)(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n này.

Tuy nhiên, vi(cid:1227)c l(cid:1133)u thêm các dãy âm ti(cid:1219)t vào t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n s(cid:1217) khi(cid:1219)n cho t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n r(cid:1193)t

(cid:79)(cid:1247)n (x(cid:1193)p x(cid:1229) 10MB). (cid:264)(cid:76)(cid:1221)u này khi(cid:1219)n cho vi(cid:1227)c tìm ki(cid:1219)m s(cid:1217) r(cid:1193)t ch(cid:1201)m. (cid:264)(cid:1223) gi(cid:1191)i quy(cid:1219)t v(cid:1193)n

(cid:255)(cid:1221) này, tác gi(cid:1191)(cid:3)(cid:255)(cid:1221) xu(cid:1193)t m(cid:1245)t heuristic (cid:255)(cid:1131)n gi(cid:1191)n, (cid:255)(cid:1211)t tên là S2T, giúp thu g(cid:1233)n d(cid:1267) li(cid:1227)u c(cid:1259)a

(cid:87)(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n :

Heuristic này (cid:255)(cid:1133)(cid:1255)c mô t(cid:1191) nh(cid:1133) sau:

(cid:42)(cid:1233)i d(cid:1267) li(cid:1227)u text t(cid:1263)(cid:3)(cid:255)(cid:1133)(cid:1255)c l(cid:1193)y t(cid:1263) trang www.vnexpress.net là C1.

(cid:42)(cid:1233)i d(cid:1267) li(cid:1227)u text t(cid:1263)(cid:3) (cid:255)(cid:1133)(cid:1255)c l(cid:1193)y t(cid:1263) trang www.vnexpress.net là b(cid:1231) b(cid:1235) h(cid:1219)t d(cid:1193)u

thanh là C2.

(cid:55)(cid:1263) d(cid:1267) li(cid:1227)u C1, tác gi(cid:1191) s(cid:1217) t(cid:1189)o ra file VNMarkDicPre.txt. File này s(cid:1217) ch(cid:1261)a

thông tin v(cid:1221) xác su(cid:1193)t c(cid:1259)a các dãy âm ti(cid:1219)t trong ti(cid:1219)ng Vi(cid:1227)t.

Tác gi(cid:1191) s(cid:1265) d(cid:1257)ng file VNMarkDicPre.txt (cid:255)(cid:1223) gán d(cid:1193)u thanh cho các d(cid:1267) li(cid:1227)u

C2. Khi (cid:255)ó, tác gi(cid:1191) s(cid:1217) so sánh v(cid:1247)i các d(cid:1267) li(cid:1227)u nguyên g(cid:1237)c C1. Qua (cid:255)ó, tác gi(cid:1191)(cid:3)(cid:255)ánh giá

các dãy âm ti(cid:1219)t nào nên (cid:255)(cid:1133)(cid:1255)c s(cid:1265) d(cid:1257)ng, dãy âm ti(cid:1219)t nào không nên s(cid:1265) d(cid:1257)ng.

(cid:55)(cid:1263) thông tin trên, tác gi(cid:1191) có th(cid:1223) rút trích các dãy âm ti(cid:1219)t “có ích” trong file

VNMarkDicPre.txt(cid:3)(cid:255)(cid:1223) t(cid:1189)o t(cid:1201)p tin VNMarkDic.txt.

3.2. Mô hình (cid:255)(cid:1221) xu(cid:1193)t

3.2.1. Mô hình

(cid:38)(cid:259)n c(cid:1261) vào mô hình Bigram, và d(cid:1269)a vào ý t(cid:1133)(cid:1251)ng c(cid:1259)a vi(cid:1227)c th(cid:1237)ng kê các

(cid:70)(cid:1257)m t(cid:1263) c(cid:1259)a mô hình VnMark c(cid:1259)a tác gi(cid:1191) Nguy(cid:1225)n V(cid:259)n Toàn, tôi (cid:255)(cid:1221) xu(cid:1193)t mô hình

32

thêm d(cid:1193)u t(cid:1269)(cid:3)(cid:255)(cid:1245)ng sau :

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

Hình 3.2-9: (cid:47)(cid:753)u (cid:255)(cid:859) th(cid:889)c hi(cid:847)n c(cid:879)a mô hình (cid:255)(cid:841) xu(cid:813)t

3.2.1.1. Tách câu

(cid:54)(cid:1265) d(cid:1257)ng ph(cid:1133)(cid:1131)ng pháp tách câu heuristic (cid:255)ã nêu trong ch(cid:1133)(cid:1131)ng 2, ph(cid:1195)n

33

2.3, m(cid:1257)c 2.3.1. Qua ph(cid:1133)(cid:1131)ng pháp tách câu trên, ta có th(cid:1223) phân bi(cid:1227)t (cid:255)(cid:1133)(cid:1255)c 1 s(cid:1237)

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

tr(cid:1133)(cid:1249)ng h(cid:1255)p (cid:255)(cid:1211)c bi(cid:1227)t c(cid:1259)a d(cid:1193)u ch(cid:1193)m câu “.” nh(cid:1133) t(cid:1263) vi(cid:1219)t t(cid:1203)t (Mr., Mrs. …), (cid:255)(cid:1231)a

ch(cid:1229) email (abc@gmail.com), (cid:255)(cid:1231)a ch(cid:1229) URL (http://mail.yahoo.com), s(cid:1237) th(cid:1201)p

phân (1,234.567) … (cid:264)(cid:1195)u ra c(cid:1259)a b(cid:1133)(cid:1247)c này s(cid:1217) cho ra 1 t(cid:1201)p các câu, là (cid:255)(cid:1195)u vào

(cid:70)(cid:1259)a b(cid:1133)(cid:1247)c sau.

3.2.1.2. Tách t(cid:1263) b(cid:1205)ng ph(cid:1133)(cid:1131)ng pháp LRMM

Ta dùng ph(cid:1133)(cid:1131)ng pháp tách t(cid:1263) LRMM tách các t(cid:1263) không d(cid:1193)u t(cid:1263)ng câu

(cid:80)(cid:1245)t. Lý do ch(cid:1233)n ph(cid:1133)(cid:1131)ng pháp này là : cài (cid:255)(cid:1211)t ph(cid:1133)(cid:1131)ng pháp (cid:255)(cid:1131)n gi(cid:1191)n, sai s(cid:1237)

khi tách sai t(cid:1263) có th(cid:1223) ch(cid:1193)p nh(cid:1201)n (cid:255)(cid:1133)(cid:1255)c khi tách t(cid:1263) không d(cid:1193)u.

Ví d(cid:877) 3-5: Ta có cách tách t(cid:1263) câu có d(cid:1193)u và câu không d(cid:1193)u sau (các t(cid:1263)

phân cách nhau b(cid:1205)ng d(cid:1193)u / )

o “H(cid:1233)c sinh / h(cid:1233)c / sinh h(cid:1233)c”

o “Hoc sinh / hoc sinh / hoc” (cid:224) khi chuy(cid:1223)n thành câu có d(cid:1193)u, c(cid:458)ng t(cid:1189)o

(cid:255)(cid:1133)(cid:1255)c câu “H(cid:1233)c sinh / h(cid:1233)c sinh / h(cid:1233)c” nh(cid:1133) trên (cid:224) sai s(cid:1237) khi tách t(cid:1263) có th(cid:1223)

ch(cid:1193)p nh(cid:1201)n (cid:255)(cid:1133)(cid:1255)c trong 1 ph(cid:1189)m vi nào (cid:255)ó.

Khi tách t(cid:1263) b(cid:1205)ng ph(cid:1133)(cid:1131)ng pháp LRMM, ta có chú ý (cid:255)(cid:1219)n vi(cid:1227)c nh(cid:1201)n di(cid:1227)n và

tách các t(cid:1263) tên riêng ra d(cid:1269)a trên 1 t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n tên riêng. Vi(cid:1227)c xác (cid:255)(cid:1231)nh các tên

riêng d(cid:1269)a trên ch(cid:1267) cái vi(cid:1219)t hoa (cid:255)(cid:1195)u c(cid:1259)a t(cid:1263), 1 c(cid:1257)m tên riêng, có th(cid:1223) ch(cid:1229) c(cid:1195)n

vi(cid:1219)t hoa ti(cid:1219)ng (cid:255)(cid:1195)u tiên là (cid:255)(cid:1133)(cid:1255)c.

Ví d(cid:877) 3-6:

Da Nang (cid:224)(cid:3)(cid:264)à N(cid:1209)ng

Da nang (cid:224)(cid:3)(cid:264)à N(cid:1209)ng

da nang (cid:224)(cid:3)(cid:255)a n(cid:259)ng

3.2.1.3. Ch(cid:1233)n t(cid:1263) thích h(cid:1255)p

(cid:57)(cid:1247)i t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n chuy(cid:1223)n (cid:255)(cid:1241)i TuDienChinh.txt, ta có ánh x(cid:1189) 1-1 (cid:255)(cid:1223) chuy(cid:1223)n 1 t(cid:1263)

34

không d(cid:1193)u thành có d(cid:1193)u. Ngoài ra, (cid:255)(cid:1223) t(cid:259)ng (cid:255)(cid:1245) linh ho(cid:1189)t và chính xác c(cid:1259)a

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

ph(cid:1133)(cid:1131)ng pháp, ta có thêm 1 t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n ph(cid:1257), g(cid:1233)i là t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n c(cid:1257)m t(cid:1263) CumTu.txt, l(cid:1133)u

nh(cid:1267)ng c(cid:1257)m t(cid:1263) th(cid:1133)(cid:1249)ng xuyên (cid:255)(cid:1133)(cid:1255)c s(cid:1265) d(cid:1257)ng.

Các c(cid:1257)m t(cid:1263) này (cid:255)(cid:1133)(cid:1255)c l(cid:1133)u có c(cid:1193)u trúc. V(cid:1247)i m(cid:1243)i c(cid:1257)m t(cid:1263), ta có 1 (cid:87)(cid:1263) chính,

và các chu(cid:1243)i t(cid:1263) còn l(cid:1189)i trong c(cid:1257)m t(cid:1263). (cid:264)i kèm v(cid:1247)i chu(cid:1243)i t(cid:1263) là con s(cid:1237) th(cid:1223) hi(cid:1227)n

(cid:89)(cid:1231) trí c(cid:1259)a (cid:87)(cid:1263) chính này v(cid:1247)i chu(cid:1243)i t(cid:1263). (xem chi ti(cid:1219)t c(cid:1193)u trúc và cách t(cid:1189)o trong

(cid:80)(cid:1257)c 3.2.2.2)

Ví d(cid:877) 3-7: 1 vài c(cid:1257)m t(cid:1263)(cid:3)(cid:255)(cid:1133)(cid:1255)c l(cid:1133)u

(cid:87)(cid:857)i 1|qu(cid:815)n áo m(cid:831)c bu(cid:861)i 1|bu(cid:861)i 2|hôm

(cid:224) t(cid:1263) “t(cid:1237)i” có 3 c(cid:1257)m t(cid:1263) là “qu(cid:1195)n áo m(cid:1211)c bu(cid:1241)i t(cid:1237)i”, “bu(cid:1241)i t(cid:1237)i” và “t(cid:1237)i

hôm” v(cid:1247)i “t(cid:1237)i” là (cid:87)(cid:1263) chính trong 3 c(cid:1257)m t(cid:1263) trên.

Sau khi ánh x(cid:1189) 1-1 d(cid:1269)a trên TuDienChinh.txt xong, ch(cid:1133)(cid:1131)ng trình s(cid:1217) làm

thêm 1 b(cid:1133)(cid:1247)c n(cid:1267)a, là tìm trong t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n c(cid:1257)m t(cid:1263), xem có s(cid:1269) xu(cid:1193)t hi(cid:1227)n c(cid:1257)m t(cid:1263)

nào trong v(cid:259)n b(cid:1191)n không ? N(cid:1219)u có, thì ch(cid:1133)(cid:1131)ng trình s(cid:1217) s(cid:1265)a l(cid:1189)i k(cid:1219)t qu(cid:1191), (cid:255)(cid:1223)

(cid:255)(cid:1133)(cid:1255)c k(cid:1219)t qu(cid:1191) chính xác h(cid:1131)n. Ph(cid:1133)(cid:1131)ng pháp xét duy(cid:1227)t (cid:255)(cid:1133)(cid:1255)c mô t(cid:1191) nh(cid:1133) sau:

(Sau khi (cid:255)ã ánh x(cid:809) t(cid:883) không d(cid:813)u thành có d(cid:813)u r(cid:859)i)

Duy(cid:847)t các t(cid:883) không d(cid:813)u t(cid:883) trái qua ph(cid:811)i

V(cid:867)i t(cid:883) không d(cid:813)u có xu(cid:813)t hi(cid:847)n trong t(cid:883)(cid:3) (cid:255)(cid:76)(cid:843)n CumTu.txt (là (cid:87)(cid:883)

chính c(cid:879)a c(cid:877)m t(cid:883) sau khi lo(cid:809)i b(cid:855) d(cid:813)u), ta xét trong ph(cid:809)m vi [-3,+3] t(cid:883) xung

quanh t(cid:883)(cid:3)(cid:255)ó, (cid:255)(cid:843) xét xem, có s(cid:889) xu(cid:813)t hi(cid:847)n c(cid:879)a chu(cid:863)i còn l(cid:809)i c(cid:879)a c(cid:877)m t(cid:883) không

? N(cid:839)u có thì có s(cid:889) xu(cid:813)t hi(cid:847)n c(cid:879)a c(cid:877)m t(cid:883)(cid:3) (cid:255)ó (cid:224) thay (cid:255)(cid:861)i t(cid:883) không d(cid:813)u (cid:255)ó

thành (cid:87)(cid:883) chính.

Ví d(cid:877) 3-8:

Câu “Nhung van de lien quan toi nguoi dong tinh luyen ai duoc ban

bac soi noi trong buoi hop nhom toi hom qua” s(cid:1217)(cid:3)(cid:255)(cid:1133)(cid:1255)c chuy(cid:1223)n thành câu

35

có d(cid:1193)u qua các b(cid:1133)(cid:1247)c sau:

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

o Tách câu : t(cid:1189)o ra 1 câu duy nh(cid:1193)t là “Nhung van de lien quan toi nguoi

dong tinh luyen ai duoc ban bac soi noi trong buoi hop nhom toi hom

qua”

o Tách t(cid:883) (các t(cid:883) phân cách nhau b(cid:825)ng d(cid:813)u / ) : “Nhung / van de / lien

quan / toi / nguoi / dong tinh luyen ai / duoc / ban bac / soi noi / trong /

buoi / hop / nhom / toi / hom qua”

o Thêm d(cid:813)u d(cid:889)a trên TuDienChinh.txt : ta (cid:255)(cid:1133)(cid:1255)c câu sau “Nh(cid:1267)ng / v(cid:1193)n (cid:255)(cid:1221) /

liên quan / tôi / ng(cid:1133)(cid:1249)i / (cid:255)(cid:1239)ng tính luy(cid:1219)n ái / (cid:255)(cid:1133)(cid:1255)c / bàn b(cid:1189)c / sôi n(cid:1241)i /

trong / bu(cid:1241)i / h(cid:1233)p / nhóm / tôi / hôm qua”

o Xét duy(cid:847)t l(cid:809)i d(cid:889)a trên CumTu.txt : ta (cid:255)(cid:1133)(cid:1255)c câu hoàn ch(cid:1229)nh cu(cid:1237)i cùng sau

“Nh(cid:1267)ng / v(cid:1193)n (cid:255)(cid:1221) / liên quan / (cid:87)(cid:1247)i / ng(cid:1133)(cid:1249)i / (cid:255)(cid:1239)ng tính luy(cid:1219)n ái / (cid:255)(cid:1133)(cid:1255)c / bàn

(cid:69)(cid:1189)c / sôi n(cid:1241)i / trong / bu(cid:1241)i / h(cid:1233)p / nhóm / (cid:87)(cid:1237)i / hôm qua”

3.2.2. Mô hình hu(cid:1193)n luy(cid:1227)n

Ph(cid:1195)n quan tr(cid:1233)ng nh(cid:1193)t c(cid:1259)a mô hình là các t(cid:1201)p tin t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n (cid:255)(cid:1133)(cid:1255)c cung c(cid:1193)p cho

mô hình, mà quan tr(cid:1233)ng nh(cid:1193)t là 2 t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n : TuDienChinh.txt và CumTu.txt. Sau

(cid:255)ây mô t(cid:1191) chi ti(cid:1219)t các b(cid:1133)(cid:1247)c (cid:255)(cid:1223) t(cid:1189)o nên 2 t(cid:1201)p tin trên.

3.2.2.1. Th(cid:1237)ng kê t(cid:1195)n su(cid:1193)t xu(cid:1193)t hi(cid:1227)n c(cid:1259)a t(cid:1263)

3.2.2.1.1. Xây d(cid:1269)ng kho ng(cid:1267) li(cid:1227)u

Trích xu(cid:1193)t d(cid:1267) li(cid:1227)u text t(cid:1263) kho d(cid:1267) li(cid:1227)u báo (cid:255)(cid:76)(cid:1227)n t(cid:1265) trên Internet. D(cid:1267) li(cid:1227)u

báo (cid:255)(cid:76)(cid:1227)n t(cid:1265) trên Internet s(cid:1265) d(cid:1257)ng g(cid:1239)m 700MB d(cid:1267) li(cid:1227)u báo Thanh niên, 500MB

báo Ng(cid:1133)(cid:1249)i Lao (cid:264)(cid:1245)ng và 700MB báo S(cid:1203)c màu v(cid:259)n hoá.

( Xin xem thêm trong Ph(cid:1257) l(cid:1257)c 1(cid:3)(cid:255)(cid:1223) bi(cid:1219)t chi ti(cid:1219)t c(cid:1193)u trúc kho ng(cid:1267) li(cid:1227)u)

Sau b(cid:1133)(cid:1247)c này, ta có (cid:255)(cid:1133)(cid:1255)c 1 th(cid:1133) m(cid:1257)c ch(cid:1261)a nhi(cid:1221)u t(cid:1201)p tin text, m(cid:1243)i t(cid:1201)p tin

36

ch(cid:1261)a t(cid:1201)p các câu thu(cid:1245)c cùng 1 l(cid:429)nh v(cid:1269)c. Các l(cid:429)nh v(cid:1269)c (cid:255)(cid:1133)(cid:1255)c s(cid:1265) d(cid:1257)ng, (cid:255)(cid:1223) phù h(cid:1255)p

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

(cid:89)(cid:1247)i m(cid:1257)c (cid:255)ích t(cid:1241)ng quát c(cid:1259)a ch(cid:1133)(cid:1131)ng trình, em ch(cid:1233)n các bài báo v(cid:1221) tin t(cid:1261)c, th(cid:1249)i

(cid:86)(cid:1269), xã h(cid:1245)i, chính tr(cid:1231) … và kèm thêm 1 ít v(cid:1221) các l(cid:429)nh v(cid:1269)c khác nh(cid:1133) khoa h(cid:1233)c,

giáo d(cid:1257)c …

(cid:264)(cid:1245) l(cid:1247)n c(cid:1259)a kho d(cid:1267) li(cid:1227)u vào kho(cid:1191)ng 150MB d(cid:1267) li(cid:1227)u. L(cid:1133)(cid:1255)ng d(cid:1267) li(cid:1227)u này

(cid:255)(cid:1259) l(cid:1247)n (cid:255)(cid:1223) mô hình ho(cid:1189)t (cid:255)(cid:1245)ng (cid:255)(cid:1133)(cid:1255)c chính xác.

3.2.2.1.2. Th(cid:1237)ng kê t(cid:1195)n su(cid:1193)t xu(cid:1193)t hi(cid:1227)n c(cid:1259)a t(cid:1263)

(cid:57)(cid:1247)i k(cid:1219)t qu(cid:1191) c(cid:1259)a b(cid:1133)(cid:1247)c trên, ta duy(cid:1227)t t(cid:1193)t c(cid:1191) các t(cid:1201)p tin trong th(cid:1133) m(cid:1257)c, sau

(cid:255)ó dùng ph(cid:1133)(cid:1131)ng pháp LRMM (cid:255)(cid:1223) tách t(cid:1263) t(cid:1263)ng câu m(cid:1245)t, th(cid:1237)ng kê t(cid:1195)n su(cid:1193)t xu(cid:1193)t

hi(cid:1227)n c(cid:1259)a t(cid:1263) theo công th(cid:1261)c sau :

(cid:55)(cid:815)n su(cid:813)t t(cid:883) = -log10(s(cid:857) l(cid:815)n xu(cid:813)t hi(cid:847)n c(cid:879)a t(cid:883) / t(cid:861)ng s(cid:857) t(cid:883))

Sau b(cid:1133)(cid:1247)c này, ta có (cid:255)(cid:1133)(cid:1255)c 1 t(cid:1201)p tin text ch(cid:1261)a t(cid:1195)n su(cid:1193)t các t(cid:1263) mà ta th(cid:1237)ng

kê (cid:255)(cid:1133)(cid:1255)c.

(cid:39)(cid:1269)a trên kho ng(cid:1267) li(cid:1227)u 150MB, ta th(cid:1237)ng kê (cid:255)(cid:1133)(cid:1255)c s(cid:1237) l(cid:1133)(cid:1255)t t(cid:1263) s(cid:1265) d(cid:1257)ng vào

kho(cid:1191)ng g(cid:1195)n 18 tri(cid:1227)u t(cid:1263), s(cid:1237) lo(cid:1189)i t(cid:1263) khác nhau s(cid:1265) d(cid:1257)ng là trên 26400 t(cid:1263). Các

37

thông s(cid:1237) th(cid:1237)ng kê trên (cid:255)(cid:1133)(cid:1255)c ghi vào t(cid:1201)p tin log khi ch(cid:1133)(cid:1131)ng trình ch(cid:1189)y.

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

Hình 3.2-10 : (cid:55)(cid:821)p tin m(cid:819)u sau khi th(cid:857)ng kê t(cid:815)n su(cid:813)t t(cid:883)

3.2.2.1.3. (cid:55)(cid:1189)o t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n chuy(cid:1223)n (cid:255)(cid:1241)i

Vi(cid:1227)c t(cid:1189)o t(cid:1201)p tin t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n chuy(cid:1223)n (cid:255)(cid:1241)i TuDienChinh.txt r(cid:1193)t d(cid:1225) dàng. V(cid:1247)i t(cid:1201)p

tin th(cid:1237)ng kê t(cid:1195)n su(cid:1193)t xu(cid:1193)t hi(cid:1227)n c(cid:1259)a t(cid:1263)(cid:3)(cid:1251) b(cid:1133)(cid:1247)c trên, ta lo(cid:1189)i b(cid:1235) các t(cid:1263) có t(cid:1195)n su(cid:1193)t

> 7. Vi(cid:1227)c lo(cid:1189)i b(cid:1235) này giúp cho ph(cid:1133)(cid:1131)ng pháp ch(cid:1229) chú tr(cid:1233)ng (cid:255)(cid:1219)n các t(cid:1263) có t(cid:1195)n

su(cid:1193)t nh(cid:1235) (t(cid:1261)c xu(cid:1193)t hi(cid:1227)n nhi(cid:1221)u nh(cid:1193)t). V(cid:1247)i các t(cid:1263) không d(cid:1193)u có nhi(cid:1221)u t(cid:1263) có d(cid:1193)u,

thì ta ch(cid:1233)n ra t(cid:1263) có d(cid:1193)u có t(cid:1195)n su(cid:1193)t nh(cid:1235) nh(cid:1193)t (t(cid:1261)c xu(cid:1193)t hi(cid:1227)n nhi(cid:1221)u nh(cid:1193)t) (cid:255)(cid:1223) t(cid:1189)o

thành t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n TuDienChinh.txt v(cid:1247)i c(cid:1193)u trúc sau :

38

(cid:48)(cid:1243)i dòng c(cid:1259)a t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n có c(cid:1193)u trúc sau : TAB

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

Hình 3.2-11 : Trích t(cid:821)p tin TuDienChinh.txt

3.2.2.2. Trích xu(cid:1193)t các c(cid:1257)m t(cid:1263) th(cid:1133)(cid:1249)ng s(cid:1265) d(cid:1257)ng

(cid:264)ây là 1 ph(cid:1133)(cid:1131)ng pháp t(cid:1133)(cid:1131)ng (cid:255)(cid:1237)i (cid:255)(cid:1131)n gi(cid:1191)n (cid:255)(cid:1223) rút trích ra 1 s(cid:1237) c(cid:1257)m t(cid:1263)

th(cid:1133)(cid:1249)ng s(cid:1265) d(cid:1257)ng. Ta d(cid:1269)a vào t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n LLOCE ti(cid:1219)ng Vi(cid:1227)t (cid:255)(cid:1223) rút ra các c(cid:1257)m t(cid:1263),

chú ý là, trong quá trình rút trích, ta ch(cid:1229) quan tâm (cid:255)(cid:1219)n các c(cid:1257)m t(cid:1263) ch(cid:1229) ch(cid:1261)a

các t(cid:1263) t(cid:1189)o nên s(cid:1269) nh(cid:1201)p nh(cid:1205)ng khi lo(cid:1189)i b(cid:1235) d(cid:1193)u (nh(cid:1133) t(cid:1263) “tôi”, “t(cid:1247)i”, “t(cid:1237)i” khi

lo(cid:1189)i b(cid:1235) s(cid:1217) t(cid:1189)o thành t(cid:1263) “toi” (cid:224) nh(cid:1201)p nh(cid:1205)ng) t(cid:1263)(cid:3)(cid:255)ó, th(cid:1237)ng kê trên kho ng(cid:1267) li(cid:1227)u

150MB (cid:1251) b(cid:1133)(cid:1247)c trên, (cid:255)(cid:1223) rút ra các c(cid:1257)m t(cid:1263) th(cid:1133)(cid:1249)ng s(cid:1265) d(cid:1257)ng. Các c(cid:1257)m t(cid:1263) này s(cid:1217)

(cid:255)(cid:1133)(cid:1255)c l(cid:1133)u nh(cid:1133) sau :

(cid:48)(cid:1243)i dòng có c(cid:1193)u trúc sau :

{TAB } (1,n)

Mô t(cid:1191):

39

- {1,n} : l(cid:1211)p c(cid:1193)u trúc trong {} t(cid:1263) 1 (cid:255)(cid:1219)n nhi(cid:1221)u l(cid:1195)n

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

- (cid:55)(cid:883) chính trong c(cid:877)m t(cid:883) : là t(cid:1263) có d(cid:1193)u. T(cid:1263) này, sau khi b(cid:1235) d(cid:1193)u, thì t(cid:1263) không d(cid:1193)u này

(cid:86)(cid:1217) có nhi(cid:1221)u t(cid:1263) có d(cid:1193)u t(cid:1133)(cid:1131)ng (cid:1261)ng (t(cid:1263) gây nh(cid:1201)p nh(cid:1205)ng). T(cid:1201)p tin CumTu.txt ch(cid:1229) xét

các c(cid:1257)m t(cid:1263) có ch(cid:1261)a các (cid:87)(cid:883) chính t(cid:1189)o nên s(cid:1269) nh(cid:1201)p nh(cid:1205)ng này thôi.

- (cid:89)(cid:851) trí : ch(cid:1229) v(cid:1231) trí c(cid:1259)a trong c(cid:1257)m t(cid:1263)(cid:3)(cid:255)ó so v(cid:1247)i , có

các giá tr(cid:1231) sau:

o (cid:89)(cid:1231) trí = 0 : nói lên r(cid:1205)ng, (cid:255)(cid:1261)ng gi(cid:1267)a 2 ,

và chu(cid:1243)i tr(cid:1133)(cid:1247)c s(cid:1217)(cid:3)(cid:255)(cid:1133)(cid:1255)c ghi tr(cid:1133)(cid:1247)c, 2 s(cid:1217) cách nhau b(cid:1251)i

kí t(cid:1269) phân cách ‘|’

o (cid:89)(cid:1231) trí = 1 : nói lên r(cid:1205)ng, (cid:255)(cid:1261)ng sau , khi

(cid:255)ó, ch(cid:1229) xu(cid:1193)t hi(cid:1227)n 1 trong c(cid:1257)m t(cid:1263)

o (cid:89)(cid:1231) trí =2 : nói lên r(cid:1205)ng, (cid:255)(cid:1261)ng tr(cid:1133)(cid:1247)c , khi

(cid:255)ó, ch(cid:1229) xu(cid:1193)t hi(cid:1227)n 1 trong c(cid:1257)m t(cid:1263)

Ví d(cid:877) 3-9:

món 2|(cid:259)n (cid:224) c(cid:1257)m t(cid:1263) “món (cid:259)n”, t(cid:1263) chính là “món” (cid:255)(cid:1261)ng tr(cid:1133)(cid:1247)c “(cid:259)n”

(cid:255)(cid:1193)u 0|môn|bóng (cid:224) c(cid:1257)m t(cid:1263) “môn (cid:255)(cid:1193)u bóng”, t(cid:1263) chính là “(cid:255)(cid:1193)u” (cid:255)(cid:1261)ng tr(cid:1133)(cid:1247)c

“bóng” và (cid:255)(cid:1261)ng sau “môn”

40

(cid:87)(cid:1237)i 1|bu(cid:1241)i (cid:224) c(cid:1257)m t(cid:1263) “bu(cid:1241)i t(cid:1237)i”, t(cid:1263) chính là “t(cid:1237)i” (cid:255)(cid:1261)ng sau “bu(cid:1241)i”

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

Hình 3.2-12 : Trích t(cid:821)p tin CumTu.txt

3.2.3.

So sánh mô hình này v(cid:1247)i 2 mô hình trên

Mô hình (cid:255)(cid:1221) xu(cid:1193)t là mô hình nâng cao c(cid:1259)a mô hình VietPad s(cid:1265) d(cid:1257)ng. V(cid:1247)i các (cid:1133)u

th(cid:1219) h(cid:1131)n h(cid:1207)n nh(cid:1133) có ph(cid:1195)n tách câu, kh(cid:1191) n(cid:259)ng (cid:255)(cid:1241)i t(cid:1263) không d(cid:1193)u thành có d(cid:1193)u linh

ho(cid:1189)t qua t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n CumTu.txt ch(cid:1261) không là ánh x(cid:1189) 1-1 nh(cid:1133) Vietpad, kh(cid:1191) n(cid:259)ng nh(cid:1201)n

di(cid:1227)n t(cid:1263) tên riêng ...

So v(cid:1247)i mô hình mà VnMark s(cid:1265) d(cid:1257)ng, m(cid:1243)i mô hình có 1 (cid:255)(cid:76)(cid:1223)m m(cid:1189)nh riêng,

nh(cid:1133)ng ph(cid:1133)(cid:1131)ng pháp mà mô hình em (cid:255)(cid:1221) xu(cid:1193)t, có th(cid:1223) tái k(cid:1219)t h(cid:1255)p v(cid:1247)i mô hình c(cid:1259)a

41

VnMark (cid:255)(cid:1223) cho ra 1 k(cid:1219)t qu(cid:1191) hoàn ch(cid:1229)nh h(cid:1131)n n(cid:1267)a.

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

(cid:264)(cid:76)(cid:1223)m n(cid:1241)i tr(cid:1245)i c(cid:1259)a mô hình, là kh(cid:1191) n(cid:259)ng xét duy(cid:1227)t và phát hi(cid:1227)n c(cid:1257)m t(cid:1263) 1 cách

linh ho(cid:1189)t trong ph(cid:1189)m vi [-3,+3] mà các mô hình khác không th(cid:1269)c hi(cid:1227)n (cid:255)(cid:1133)(cid:1255)c. Vi(cid:1227)c

xét duy(cid:1227)t này cho phép phát hi(cid:1227)n và gán d(cid:1193)u chính xác, khi c(cid:1257)m t(cid:1263) xu(cid:1193)t hi(cid:1227)n không

liên t(cid:877)c.

Ví d(cid:877) 3-10:

Ch(cid:1133)(cid:1131)ng trình có th(cid:1223) phát hi(cid:1227)n và chuy(cid:1223)n t(cid:1263) “toi” thành “t(cid:1237)i” khi phát hi(cid:1227)n ra

(cid:70)(cid:1257)m t(cid:1263) “t(cid:1237)i ngày hôm (cid:255)ó”, “t(cid:1237)i ngày hôm kia”, “t(cid:1237)i ngày hôm n(cid:1233)” … khi trong t(cid:1263)

42

(cid:255)(cid:76)(cid:1223)n CumTu.txt ch(cid:1229) l(cid:1133)u “t(cid:1237)i 2|hôm”.

Ch(cid:1133)(cid:1131)ng 4. CÀI (cid:264)(cid:1210)T

TH(cid:1264) NGHI(cid:1226)M

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

4.1. Th(cid:1237)ng kê t(cid:1195)n s(cid:1237) xu(cid:1193)t hi(cid:1227)n c(cid:1259)a t(cid:1263)

Sau (cid:255)ây là các b(cid:1133)(cid:1247)c th(cid:1269)c hi(cid:1227)n (cid:255)(cid:1223) có (cid:255)(cid:1133)(cid:1255)c t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n t(cid:1195)n s(cid:1237) xu(cid:1193)t hi(cid:1227)n c(cid:1259)a t(cid:1263). (cid:264)(cid:1195)u

vào c(cid:1259)a b(cid:1133)(cid:1247)c này là kho d(cid:1267) li(cid:1227)u báo (cid:255)(cid:76)(cid:1227)n t(cid:1265) online g(cid:1239)m : 700MB d(cid:1267) li(cid:1227)u báo Thanh

niên, 500MB d(cid:1267) li(cid:1227)u báo Ng(cid:1133)(cid:1249)i lao (cid:255)(cid:1245)ng và 700MB d(cid:1267) li(cid:1227)u báo S(cid:1203)c màu v(cid:259)n hóa.

(cid:264)(cid:1195)u ra s(cid:1217)(cid:3)(cid:255)(cid:1133)(cid:1255)c t(cid:1201)p tin t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n t(cid:1195)n s(cid:1237) xu(cid:1193)t hi(cid:1227)n t(cid:1263), th(cid:1237)ng kê (cid:255)(cid:1133)(cid:1255)c trên kho d(cid:1267) li(cid:1227)u

trên.

4.1.1.

Xây d(cid:1269)ng kho ng(cid:1267) li(cid:1227)u text t(cid:1263) báo (cid:255)(cid:76)(cid:1227)n t(cid:1265)

(ch(cid:1189)y ch(cid:1133)(cid:1131)ng trình html2txt.exe)

Ch(cid:1133)(cid:1131)ng trình Html2Txt s(cid:1217) trích xu(cid:1193)t các d(cid:1267) li(cid:1227)u text có ngh(cid:429)a trong kho d(cid:1267) li(cid:1227)u

báo online d(cid:1189)ng html, (cid:255)(cid:1223) có (cid:255)(cid:1133)(cid:1255)c kho d(cid:1267) li(cid:1227)u hoàn toàn thu(cid:1195)n text. (cid:264)ây là b(cid:1133)(cid:1247)c ti(cid:1221)n x(cid:1265)

lý và các t(cid:1201)p tin text (cid:255)(cid:1133)(cid:1255)c l(cid:1133)u v(cid:1247)i mã hoá UTF8.

Khi ch(cid:1189)y ch(cid:1133)(cid:1131)ng trình này, em (cid:255)ã s(cid:1265) d(cid:1257)ng 700MB d(cid:1267) li(cid:1227)u báo Thanh niên,

500MB d(cid:1267) li(cid:1227)u báo Ng(cid:1133)(cid:1249)i lao (cid:255)(cid:1245)ng và 700MB d(cid:1267) li(cid:1227)u báo S(cid:1203)c màu v(cid:259)n hóa. K(cid:1219)t qu(cid:1191)

xu(cid:1193)t ra kho(cid:1191)ng 120 MB d(cid:1267) li(cid:1227)u text thu(cid:1195)n túy.

44

Hình 4.1.1-13: Giao di(cid:847)n ch(cid:753)(cid:751)ng trình HTML2TXT

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

o (cid:264)(cid:1195)u vào: là th(cid:1133) m(cid:1257)c ch(cid:1261)a d(cid:1267) li(cid:1227)u kho d(cid:1267) li(cid:1227)u .html (có th(cid:1223) ch(cid:1261)a th(cid:1133) m(cid:1257)c con nhi(cid:1221)u c(cid:1193)p).

o (cid:264)(cid:1195)u ra: N(cid:1131)i l(cid:1133)u toàn b(cid:1245) n(cid:1245)i dung tách (cid:255)(cid:1133)(cid:1255)c (các n(cid:1245)i dung l(cid:1133)u trong các file .txt cùng tên file .html (cid:255)(cid:1133)a vào).

o Do d(cid:1267) li(cid:1227)u web (cid:255)(cid:1133)a vào r(cid:1193)t (cid:255)a d(cid:1189)ng và không chu(cid:1197)n nên ch(cid:1133)(cid:1131)ng trình không th(cid:1223) tìm (cid:255)(cid:1133)(cid:1255)c tag n(cid:1245)i dung trong t(cid:1193)t c(cid:1191) các tr(cid:1133)(cid:1249)ng h(cid:1255)p. (cid:264)(cid:1223) ch(cid:1133)(cid:1131)ng trình ho(cid:1189)t (cid:255)(cid:1245)ng (cid:255)úng thì khi ti(cid:1219)n hành tách n(cid:1245)i dung cho các file .html thì ng(cid:1133)(cid:1249)i dùng c(cid:1195)n ch(cid:1229) rõ tag ch(cid:1261)a n(cid:1245)i dung chính trong v(cid:259)n b(cid:1191)n .html b(cid:1205)ng cách c(cid:1193)u hình cho ch(cid:1133)(cid:1131)ng trình.

Hình 4.1.1-14: (cid:38)(cid:813)u hình c(cid:879)a ch(cid:753)(cid:751)ng trình HTML2TXT

(cid:38)(cid:1193)u hình ch(cid:1133)(cid:1131)ng trình

o (cid:38)(cid:1131) b(cid:1191)n: các tag ch(cid:1261)a ph(cid:1195)n n(cid:1245)i dung c(cid:1195)n trích ra o Nâng cao: s(cid:1265) d(cid:1257)ng khi có thu(cid:1245)c tính class c(cid:1259)a tag t(cid:1133)(cid:1131)ng (cid:1261)ng bên ph(cid:1195)n c(cid:1131) b(cid:1191)n

o Gi(cid:1191)i mã NCR c(cid:1259)a html: dùng (cid:255)(cid:1223) chuy(cid:1223)n ph(cid:1195)n text (cid:255)(cid:1231)nh d(cid:1189)ng NCR sang Unicode. Ví d(cid:877) 4-1: TÔI Ł TÔI

45

o Charset: charset mà trang web s(cid:1265) d(cid:1257)ng; thông th(cid:1133)(cid:1249)ng, m(cid:1243)i trang web (cid:255)(cid:1231)nh ngh(cid:429)a charset mà nó s(cid:1265) d(cid:1257)ng trong tag sau (cid:1251)(cid:3)(cid:255)(cid:1195)u html.

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

Hi(cid:1227)n ch(cid:1133)(cid:1131)ng trình h(cid:1243) tr(cid:1255) 2 charset hay s(cid:1265) d(cid:1257)ng t(cid:1189)i Vi(cid:1227)t Nam là utf-8 và windows-1252

Ta c(cid:1195)n ph(cid:1191)i (cid:255)(cid:1231)nh charset (cid:255)úng (cid:255)(cid:1223) vi(cid:1227)c (cid:255)(cid:1233)c d(cid:1267) li(cid:1227)u t(cid:1263) html (cid:255)úng, chính xác (n(cid:1219)u ch(cid:1233)n sai charset thì vi(cid:1227)c (cid:255)(cid:1233)c html s(cid:1217) b(cid:1231) thi(cid:1219)u 1 s(cid:1237) kí t(cid:1269))

(cid:47)(cid:1133)u ý quan tr(cid:1233)ng : (cid:38)(cid:1193)u hình c(cid:1259)a 1 s(cid:1237) trang web chính nh(cid:1133) sau: (Trong d(cid:1193)u ngo(cid:1211)c () là ph(cid:1195)n nâng cao t(cid:1133)(cid:1131)ng (cid:1261)ng c(cid:1259)a tag) 1. www.thanhnien.com.vn :

(ko gi(cid:1191)i mã NCR _ charset : utf8) div(newslead) div(newsbody)

2. www.tuoitre.com.vn

(ko gi(cid:1191)i mã NCR _ charset : utf8) p(ptitle) p(phead) p(pbody) p(pquestion) p(panswer)

3. vnca.cand.com.vn

(có gi(cid:1191)i mã NCR _ charset : utf8) span(main_title) span(sapeau_box) span(text_box)

4. www.nld.com.vn (ko gi(cid:1191)i mã NCR _ charset : utf8)

->p(msonormal) td(td_read)->p(none) (-> : p là tag con c(cid:1259)a td)

5. www.baobinhdinh.com.vn

46

(ko gi(cid:1191)i mã NCR _ charset : utf8) p(msonormal) p(msobodytext)

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

6. www.baocantho.com.vn

(có gi(cid:1191)i mã NCR _ charset : windows_1252) td(news_title) td(news_body)

7. sacmauvanhoa

(ko gi(cid:1191)i mã NCR _ charset : utf8) p(dong) p(msonormal)

47

Hình 4.1.1-15 : M(cid:865)t trang báo thanh niên

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

Hình 4.1.1-16 : (cid:39)(cid:887) li(cid:847)u (cid:255)(cid:753)(cid:875)c tách t(cid:883) trang báo Thanh niên

4.1.2. Tách câu

(ch(cid:1189)y ch(cid:1133)(cid:1131)ng trình XDNguLieu.exe)

(cid:55)(cid:1189)i b(cid:1133)(cid:1247)c này, ta th(cid:1269)c hi(cid:1227)n vi(cid:1227)c t(cid:1189)o 1 kho d(cid:1267) li(cid:1227)u chu(cid:1197)n ti(cid:1227)n cho vi(cid:1227)c x(cid:1265)

lý sau này. Kho d(cid:1267) li(cid:1227)u này theo chu(cid:1197)n (cid:255)(cid:1133)(cid:1255)c mô t(cid:1191) chi ti(cid:1219)t trong ph(cid:1195)n PH(cid:1256)

(cid:47)(cid:1256)C. 1 cách (cid:255)(cid:1131)n gi(cid:1191)n, kho này g(cid:1239)m nhi(cid:1221)u câu thu(cid:1245)c cùng 1 l(cid:429)nh v(cid:1269)c, m(cid:1243)i câu

(cid:255)(cid:1133)(cid:1255)c gán 1 s(cid:1237) ID riêng. K(cid:1219)t qu(cid:1191) thu (cid:255)(cid:1133)(cid:1255)c, v(cid:1247)i kho text (cid:1251) b(cid:1133)(cid:1247)c trên là 1 kho câu

48

150MB.

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

Hình 4.1.2-17: Giao di(cid:847)n ch(cid:753)(cid:751)ng trình Tách Câu

o (cid:55)(cid:1263) vi(cid:1219)t t(cid:1203)t : Dùng (cid:255)(cid:1223)(cid:3)(cid:255)(cid:1231)nh ngh(cid:429)a các t(cid:1263) vi(cid:1219)t t(cid:1203)t thông d(cid:1257)ng có ch(cid:1261)a d(cid:1193)u ch(cid:1193)m câu (. ! ?) (cid:255)(cid:1223) lo(cid:1189)i b(cid:1235) b(cid:1247)t các tr(cid:1133)(cid:1249)ng h(cid:1255)p gây nh(cid:1195)m l(cid:1199)n khi tách câu.

Hình 4.1.2-18: (cid:55)(cid:883) vi(cid:839)t t(cid:823)t cung c(cid:813)p cho ch(cid:753)(cid:751)ng trình Tách Câu

L(cid:1133)u ý : nên (cid:255)(cid:1223) 2 tr(cid:1133)(cid:1249)ng h(cid:1255)p nh(cid:1133) : Mr.(không có kho(cid:1191)ng tr(cid:1203)ng (cid:255)(cid:1205)ng sau) và Mr. (có kho(cid:1191)ng tr(cid:1203)ng (cid:255)(cid:1205)ng sau) thì vi(cid:1227)c ch(cid:1189)y ch(cid:1133)(cid:1131)ng trình s(cid:1217) t(cid:1237)t và chính xác h(cid:1131)n

o ID : nhãn (cid:255)(cid:1231)nh danh duy nh(cid:1193)t cho 1 câu trong t(cid:1201)p tin, g(cid:1239)m các tr(cid:1133)(cid:1249)ng : Ngày Tháng N(cid:259)m Ngu(cid:859)n g(cid:857)c (cid:264)(cid:851)nh danh Ch(cid:879)(cid:3)(cid:255)(cid:841)

49

o (cid:264)(cid:1195)u vào : Th(cid:1133) m(cid:1257)c ch(cid:1261)a các file n(cid:1245)i dung text (cid:255)ã tách (cid:255)(cid:1133)(cid:1255)c t(cid:1263) các file .html (th(cid:1133) m(cid:1257)c có th(cid:1223) có nhi(cid:1221)u c(cid:1193)p).

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

o (cid:46)(cid:1219)t xu(cid:1193)t : File ch(cid:1261)a t(cid:1193)t c(cid:1191) các câu v(cid:259)n b(cid:1191)n (cid:255)ã (cid:255)(cid:1133)(cid:1255)c tách t(cid:1263) th(cid:1133) m(cid:1257)c (cid:255)(cid:1195)u vào và gán ID (hình d(cid:1133)(cid:1247)i)

Hình 4.1.2-19: (cid:49)(cid:865)i dung file k(cid:839)t xu(cid:813)t c(cid:879)a ch(cid:753)(cid:751)ng trình Tách Câu

.

4.1.3. Tách t(cid:1263) và th(cid:1237)ng kê

(ch(cid:1189)y ch(cid:1133)(cid:1131)ng trình Tach tu.exe)

V(cid:1247)i kho d(cid:1267) li(cid:1227)u chu(cid:1197)ng (cid:255)(cid:1133)(cid:1255)c t(cid:1189)o ra (cid:1251) b(cid:1133)(cid:1247)c trên, ta b(cid:1203)t (cid:255)(cid:1195)u dùng ph(cid:1133)(cid:1131)ng pháp

tách t(cid:1263) LRMM (cid:255)(cid:1223) th(cid:1237)ng kê t(cid:1195)n s(cid:1237) xu(cid:1193)t hi(cid:1227)n c(cid:1259)a t(cid:1263). Dùng 150 MB d(cid:1267) li(cid:1227)u kho câu

trên, em th(cid:1237)ng kê trên kho(cid:1191)ng g(cid:1195)n 18 tri(cid:1227)u l(cid:1133)(cid:1255)t t(cid:1263), và h(cid:1131)n 26400 t(cid:1263) khác nhau (cid:255)ã

50

xu(cid:1193)t hi(cid:1227)n.

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

v Th(cid:1133) m(cid:1257)c ngu(cid:1239)n : Th(cid:1133) m(cid:1257)c ch(cid:1261)a các câu (cid:255)ã (cid:255)(cid:1133)(cid:1255)c tách và gán nhãn, g(cid:1239)m các

Hình 4.1.3-20: Giao di(cid:847)n module tách t(cid:883)

(cid:87)(cid:1201)p tin cùng l(cid:429)nh v(cid:1269)c (nh(cid:1133) pháp lu(cid:1201)t); không quan tâm kho d(cid:1267) li(cid:1227)u này cùng hay

khác ngu(cid:1239)n g(cid:1237)c

v (cid:55)(cid:1201)p tin t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n: File t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n (cid:255)(cid:1133)(cid:1255)c th(cid:1195)y cung c(cid:1193)p s(cid:1209)n và (cid:255)(cid:1133)(cid:1255)c ch(cid:1229)nh s(cid:1265)a theo

Hình4.1.3-21: (cid:49)(cid:865)i dung t(cid:821)p tin th(cid:753) m(cid:877)c ngu(cid:859)n

51

yêu c(cid:1195)u s(cid:1265) d(cid:1257)ng riêng c(cid:1259)a nhóm.

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

v Xu(cid:1193)t t(cid:1201)p tin ng(cid:1267) li(cid:1227)u: File l(cid:1133)u các t(cid:1263) tách (cid:255)(cid:1133)(cid:1255)c và t(cid:1195)n su(cid:1193)t xu(cid:1193)t hi(cid:1227)n c(cid:1259)a các t(cid:1263)

Hình 4.1.3-22: (cid:49)(cid:865)i dung t(cid:821)p tin t(cid:883)(cid:3)(cid:255)(cid:76)(cid:843)n

(cid:255)(cid:1133)(cid:1255)c tính theo công th(cid:1261)c –lg(n/N)

Hình 4.1.3-23: (cid:49)(cid:865)i dung t(cid:821)p tin k(cid:839)t qu(cid:811)

4.2. (cid:55)(cid:1189)o t(cid:1201)p tin t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n chính

(ch(cid:1189)y ch(cid:1133)(cid:1131)ng trình RutGon.exe)

(cid:55)(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n chính, là t(cid:1263)(cid:3) (cid:255)(cid:76)(cid:1223)n (cid:255)(cid:1133)(cid:1255)c dùng (cid:255)(cid:1223) tra c(cid:1261)u vi(cid:1227)c chuy(cid:1223)n (cid:255)(cid:1241)i l(cid:1195)n (cid:255)(cid:1195)u,

52

dùng (cid:255)(cid:1223) ánh x(cid:1189) 1-1 t(cid:1263) t(cid:1263) không d(cid:1193)u sang t(cid:1263) có d(cid:1193)u. Trong ph(cid:1195)n cài (cid:255)(cid:1211)t, t(cid:1263)(cid:3) (cid:255)(cid:76)(cid:1223)n

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

chính có tên là TuDienChinh.txt. T(cid:1201)p tin t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n chính này, (cid:255)(cid:1133)(cid:1255)c t(cid:1189)o ra nh(cid:1249) vào t(cid:1201)p

tin th(cid:1237)ng kê t(cid:1263)(cid:3)(cid:1251) b(cid:1133)(cid:1247)c trên.

Hình 4.1.3-24: Giao di(cid:847)n ch(cid:753)(cid:751)ng trình t(cid:809)o t(cid:883)(cid:3)(cid:255)(cid:76)(cid:843)n chính

o (cid:55)(cid:1201)p tin ngu(cid:1239)n : t(cid:1201)p tin ch(cid:1261)a t(cid:1195)n su(cid:1193)t các t(cid:1263)(cid:3)(cid:255)ã (cid:255)(cid:1133)(cid:1255)c th(cid:1237)ng kê (cid:1251) b(cid:1133)(cid:1247)c trên.

o Th(cid:1133) m(cid:1257)c th(cid:1237)ng kê : th(cid:1133) m(cid:1257)c ch(cid:1261)a kho ng(cid:1267) li(cid:1227)u. (cid:264)ây chính là Th(cid:1133) m(cid:1257)c ngu(cid:1239)n

(cid:70)(cid:1259)a ph(cid:1195)n Tách t(cid:1263) và th(cid:1237)ng kê

o Th(cid:1133) m(cid:1257)c k(cid:1219)t xu(cid:1193)t : th(cid:1133) m(cid:1257)c s(cid:1217) ch(cid:1261)a k(cid:1219)t qu(cid:1191) c(cid:1259)a ch(cid:1133)(cid:1131)ng trình. Ngoài vi(cid:1227)c t(cid:1189)o

ra t(cid:1201)p tin TuDienChinh.txt, ch(cid:1133)(cid:1131)ng trình còn t(cid:1189)o ra thêm 2 t(cid:1201)p tin ph(cid:1257) là

TuDienPhanLop.txt và KhoCau.txt là (cid:255)(cid:1195)u vào cho b(cid:1133)(cid:1247)c sau.

§ TuDienPhanLop.txt : t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n này ch(cid:1261)a các t(cid:1263) không d(cid:1193)u, m(cid:1243)i t(cid:1263) không

(cid:71)(cid:1193)u có 1 hay nhi(cid:1221)u t(cid:1263) có d(cid:1193)u.

§ KhoCau.txt : ch(cid:1261)a t(cid:1193)t c(cid:1191) các câu có s(cid:1269) xu(cid:1193)t hi(cid:1227)n c(cid:1259)a các t(cid:1263) có d(cid:1193)u trong

53

TuDienPhanLop.txt

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

Hình 4.1.3-25 : Trích 1 ph(cid:815)n TuDienChinh.txt

54

Hình 4.1.3-26 : Trích 1 ph(cid:815)n TuDienPhanLop.txt

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

Hình 4.1.3-27: Trích 1 ph(cid:815)n KhoCau.txt

4.3. (cid:55)(cid:1189)o t(cid:1201)p tin t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n c(cid:1257)m t(cid:1263)

(cid:55)(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n c(cid:1257)m t(cid:1263)(cid:3)(cid:255)(cid:1133)(cid:1255)c s(cid:1265) d(cid:1257)ng (cid:255)(cid:1223) tra c(cid:1261)u và hi(cid:1227)u ch(cid:1229)nh l(cid:1189)i các t(cid:1263) không d(cid:1193)u

(cid:255)ã chuy(cid:1223)n sang có d(cid:1193)u, d(cid:1269)a trên vi(cid:1227)c xét s(cid:1269) xu(cid:1193)t hi(cid:1227)n c(cid:1259)a c(cid:1257)m t(cid:1263) trong 1 ph(cid:1189)m

vi nh(cid:1193)t (cid:255)(cid:1231)nh (xem chi ti(cid:1219)t trong ph(cid:1195)n Mô hình). Trong ph(cid:1195)n cài (cid:255)(cid:1211)t, t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n c(cid:1257)m

(cid:87)(cid:1263) có tên là CumTu.txt và (cid:255)(cid:1133)(cid:1255)c t(cid:1189)o ra sau 2 b(cid:1133)(cid:1247)c sau :

4.3.1. (cid:55)(cid:1189)o kho d(cid:1267) li(cid:1227)u tinh gi(cid:1191)n m(cid:1247)i

55

(ch(cid:1189)y ch(cid:1133)(cid:1131)ng trình KhoDuLieu.exe)

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

Hình 4.3.1-28: Giao di(cid:847)n ch(cid:753)(cid:751)ng trình t(cid:809)o kho d(cid:887) li(cid:847)u tinh gi(cid:811)n

Thông qua b(cid:1133)(cid:1247)c trung gian này, giúp cho vi(cid:1227)c t(cid:1189)o t(cid:1201)p tin CumTu.txt (cid:255)(cid:1133)(cid:1255)c d(cid:1225)

dàng và nhanh chóng h(cid:1131)n.

o (cid:55)(cid:1201)p tin t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n : t(cid:1201)p tin t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n t(cid:1263) ti(cid:1219)ng Vi(cid:1227)t

o (cid:55)(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n phân lo(cid:1189)i : là TuDienPhanLop.txt (cid:255)(cid:1133)(cid:1255)c t(cid:1189)o ra (cid:1251) b(cid:1133)(cid:1247)c trên

o Kho câu : là KhoCau.txt (cid:255)(cid:1133)(cid:1255)c t(cid:1189)o ra (cid:1251) b(cid:1133)(cid:1247)c trên.

o Th(cid:1133) m(cid:1257)c k(cid:1219)t xu(cid:1193)t : th(cid:1133) m(cid:1257)c ch(cid:1261)a k(cid:1219)t qu(cid:1191) ch(cid:1133)(cid:1131)ng trình. Sau khi ch(cid:1189)y ch(cid:1133)(cid:1131)ng

trình này, ch(cid:1133)(cid:1131)ng trình s(cid:1217) t(cid:1189)o ra 1 s(cid:1237) l(cid:1133)(cid:1255)ng l(cid:1247)n th(cid:1133) m(cid:1257)c (tên th(cid:1133) m(cid:1257)c là “_” + t(cid:1263)

không d(cid:1193)u), trong th(cid:1133) m(cid:1257)c này s(cid:1217) ch(cid:1261)a các t(cid:1201)p tin text (tên t(cid:1201)p tin là “_” + t(cid:1263) có

56

(cid:71)(cid:1193)u), m(cid:1243)i t(cid:1201)p tin s(cid:1217) ch(cid:1261)a t(cid:1193)t c(cid:1191) các câu mà có s(cid:1269) xu(cid:1193)t hi(cid:1227)n c(cid:1259)a t(cid:1263)(cid:3)(cid:255)ó.

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

Hình 4.3.1-29 : Trích 1 ph(cid:815)n th(cid:753) m(cid:877)c k(cid:839)t xu(cid:813)t

57

Hình 4.3.1-30 : Th(cid:753) m(cid:877)c con _a trong th(cid:753) m(cid:877)c k(cid:839)t xu(cid:813)t

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

4.3.2. (cid:55)(cid:1189)o t(cid:1201)p tin t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n c(cid:1257)m t(cid:1263)

(ch(cid:1189)y ch(cid:1133)(cid:1131)ng trình ThongKeTu.txt)

Hình 4.3.2-31: Giao di(cid:847)n ch(cid:753)(cid:751)ng trình t(cid:809)o t(cid:821)p tin c(cid:877)m t(cid:883)

o (cid:55)(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n : t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n các t(cid:1263) ti(cid:1219)ng Vi(cid:1227)t

o (cid:55)(cid:1263)(cid:3) (cid:255)(cid:76)(cid:1223)n phân l(cid:1247)p : là TuDienPhanLop.txt (cid:255)(cid:1133)(cid:1255)c t(cid:1189)o ra (cid:1251) b(cid:1133)(cid:1247)c t(cid:1189)o

TuDienChinh.txt

o (cid:55)(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n LLOCE : ch(cid:1261)a 1 s(cid:1237) c(cid:1257)m t(cid:1263) nh(cid:1193)t (cid:255)(cid:1231)nh … n(cid:1219)u có ngu(cid:1239)n d(cid:1267) li(cid:1227)u c(cid:1257)m t(cid:1263)

(cid:87)(cid:1237)t h(cid:1131)n, ch(cid:1133)(cid:1131)ng trình s(cid:1217) ch(cid:1189)y t(cid:1237)t h(cid:1131)n.

o Kho d(cid:1267) li(cid:1227)u : là Th(cid:1133) m(cid:1257)c k(cid:1219)t xu(cid:1193)t (cid:1251) b(cid:1133)(cid:1247)c trên.

4.4. Ch(cid:1133)(cid:1131)ng trình chính

Ch(cid:1261)c n(cid:259)ng thêm d(cid:1193)u và xoá d(cid:1193)u (cid:255)(cid:1133)(cid:1255)c tích h(cid:1255)p trong 1 dll, giúp vi(cid:1227)c tri(cid:1223)n khai

ch(cid:1133)(cid:1131)ng trình (cid:255)(cid:1133)(cid:1255)c d(cid:1225) dàng và thu(cid:1201)n ti(cid:1227)n h(cid:1131)n. Vi(cid:1227)c s(cid:1265) d(cid:1257)ng dll này r(cid:1193)t (cid:255)(cid:1131)n gi(cid:1191)n, ch(cid:1229)

(cid:70)(cid:1195)n 1 dll và 1 th(cid:1133) m(cid:1257)c ch(cid:1261)a các t(cid:1201)p tin t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n c(cid:1195)n thi(cid:1219)t cho ch(cid:1133)(cid:1131)ng trình (\TuDien)

58

là ch(cid:1261)c n(cid:259)ng Thêm d(cid:1193)u và Xoá d(cid:1193)u s(cid:1209)n sàng ho(cid:1189)t (cid:255)(cid:1245)ng. V(cid:1247)i dll trên, em phát tri(cid:1223)n

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

1 s(cid:1237) ch(cid:1133)(cid:1131)ng trình chính sau (cid:255)ây, v(cid:1247)i giao di(cid:1227)n thân thi(cid:1227)n, d(cid:1225) s(cid:1265) d(cid:1257)ng, giúp ng(cid:1133)(cid:1249)i

dùng d(cid:1225) dàng thêm d(cid:1193)u theo nhu c(cid:1195)u s(cid:1265) d(cid:1257)ng c(cid:1259)a h(cid:1233).

4.4.1. Ch(cid:1133)(cid:1131)ng trình VietEditor

Hình 4.4.1-32: Giao di(cid:847)n ch(cid:753)(cid:751)ng trình chính VietEditor

(cid:264)ây là 1 trình so(cid:1189)n th(cid:1191)o v(cid:259)n b(cid:1191)n (cid:255)(cid:1131)n gi(cid:1191)n, v(cid:1247)i các ch(cid:1261)c n(cid:259)ng t(cid:1133)(cid:1131)ng t(cid:1269) Notepad

(cid:70)(cid:1259)a Windows, nh(cid:1133)ng nó có thêm ch(cid:1261)c n(cid:259)ng Thêm d(cid:1193)u và Xoá d(cid:1193)u.

Ch(cid:1133)(cid:1131)ng trình (cid:255)(cid:1133)(cid:1255)c phát tri(cid:1223)n (cid:255)(cid:1223) ki(cid:1223)m tra mô hình (cid:255)(cid:1133)(cid:1255)c (cid:255)(cid:1133)a ra. Ch(cid:1261)c n(cid:259)ng

Thêm d(cid:1193)u thanh (F7) và Xoá d(cid:1193)u thanh (F6) trong menu Công c(cid:1257) giúp thêm d(cid:1193)u và

xoá d(cid:1193)u cho v(cid:259)n b(cid:1191)n.

Trong ch(cid:1133)(cid:1131)ng trình, do vi(cid:1227)c Ti(cid:1221)n x(cid:1265) lý, nên (cid:255)(cid:1231)nh d(cid:1189)ng c(cid:1259)a v(cid:259)n b(cid:1191)n không gi(cid:1267)

59

nh(cid:1133) c(cid:458)(cid:3)(cid:255)(cid:1133)(cid:1255)c.

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

4.4.2. Ch(cid:1133)(cid:1131)ng trình thêm d(cid:1193)u qua Clipboard

(cid:264)ây là 1 h(cid:1133)(cid:1247)ng phát tri(cid:1223)n ti(cid:1227)n l(cid:1255)i cho ch(cid:1261)c n(cid:259)ng thêm d(cid:1193)u ti(cid:1219)ng Vi(cid:1227)t.

(cid:57)(cid:1247)i vi(cid:1227)c s(cid:1265) d(cid:1257)ng t(cid:1263) không d(cid:1193)u nhi(cid:1221)u trên Internet nh(cid:1133) chat qua Y!M, (cid:255)(cid:1233)c các lá

mail (cid:255)(cid:76)(cid:1227)n t(cid:1265) … thì ti(cid:1227)n ích này s(cid:1217) giúp ng(cid:1133)(cid:1249)i s(cid:1265) d(cid:1257)ng ngay t(cid:1261)c thì. Ng(cid:1133)(cid:1249)i dùng

ch(cid:1229) c(cid:1195)n copy (cid:255)(cid:82)(cid:1189)n v(cid:259)n b(cid:1191)n không d(cid:1193)u c(cid:1195)n thêm d(cid:1193)u, ngay l(cid:1201)p t(cid:1261)c, ch(cid:1133)(cid:1131)ng trình s(cid:1217)

th(cid:1269)c hi(cid:1227)n vi(cid:1227)c chuy(cid:1223)n (cid:255)(cid:82)(cid:1189)n v(cid:259)n b(cid:1191)n (cid:255)ó thành có d(cid:1193)u và hi(cid:1223)n th(cid:1231) cho ng(cid:1133)(cid:1249)i dùng

xem.

60

Hình 4.4.2-33: Giao di(cid:847)n ch(cid:753)(cid:751)ng trình chính thêm d(cid:813)u Clipboard

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

61

Hình 4.4.2-34: Test ch(cid:753)(cid:751)ng trình thêm d(cid:813)u Clipboard

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

4.5. Th(cid:1265) nghi(cid:1227)m

(cid:57)(cid:1247)i b(cid:1245) d(cid:1267) li(cid:1227)u th(cid:1265) là các v(cid:259)n b(cid:1191)n ng(cid:1199)u nhiên m(cid:1247)i nh(cid:1193)t l(cid:1193)y t(cid:1263) trang web

www.tuoitre.com.vn, ta so sánh ch(cid:1133)(cid:1131)ng trình VietEditor v(cid:1247)i VietPad và AMPad, ta thu

(cid:255)(cid:1133)(cid:1255)c k(cid:1219)t qu(cid:1191) khá kh(cid:1191) quan sau (dùng ch(cid:1133)(cid:1131)ng trình test, không test b(cid:1205)ng tay) :

(cid:55)(cid:1241)ng s(cid:1237) ti(cid:1219)ng T(cid:1241)ng s(cid:1237) ti(cid:1219)ng (cid:255)úng T(cid:1229) l(cid:1227)(cid:3)(cid:255)úng

8275 7191 86,9% VietEditor

8275 7046 85,15% VietPad

62

8275 7156 86,47% AMPad

Ch(cid:1133)(cid:1131)ng 5. (cid:46)(cid:1218)T QU(cid:1190), H(cid:1132)(cid:1246)NG

PHÁT TRI(cid:1222)N

Lu(cid:1201)n v(cid:259)n t(cid:1237)t nghi(cid:1227)p : Ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u vào v(cid:259)n b(cid:1191)n ti(cid:1219)ng Vi(cid:1227)t không d(cid:1193)u

5.1. (cid:43)(cid:1189)n ch(cid:1219) và h(cid:1133)(cid:1247)ng phát tri(cid:1223)n

Bài toán thêm d(cid:1193)u ti(cid:1219)ng Vi(cid:1227)t vào v(cid:259)n b(cid:1191)n không d(cid:1193)u là bài toán m(cid:1247)i, còn (cid:255)ang hoàn

thi(cid:1227)n d(cid:1195)n v(cid:1221) mô hình c(cid:458)ng nh(cid:1133) cách th(cid:1269)c hi(cid:1227)n. Hi(cid:1227)n nay, mô hình th(cid:1133)(cid:1249)ng dùng cho bài

toán này là th(cid:1237)ng kê t(cid:1195)n s(cid:1237) xu(cid:1193)t hi(cid:1227)n c(cid:1259)a t(cid:1263), (cid:255)(cid:1239)ng th(cid:1249)i, tu(cid:484) theo m(cid:1243)i tác gi(cid:1191) mà có thêm

nh(cid:1267)ng bi(cid:1219)n (cid:255)(cid:1241)i, thu(cid:1201)t gi(cid:1191)i khác nhau giúp cho vi(cid:1227)c thêm d(cid:1193)u (cid:255)(cid:1133)(cid:1255)c chính xác h(cid:1131)n.

Qua lu(cid:1201)n v(cid:259)n này, mô hình th(cid:1237)ng kê t(cid:1195)n s(cid:1237) xu(cid:1193)t hi(cid:1227)n c(cid:1259)a t(cid:1263), kèm theo ph(cid:1133)(cid:1131)ng pháp

tách t(cid:1263) không d(cid:1193)u LRMM và s(cid:1265) d(cid:1257)ng thêm t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n c(cid:1257)m t(cid:1263), kh(cid:1191) n(cid:259)ng chính xác c(cid:1259)a mô

hình là t(cid:1133)(cid:1131)ng (cid:255)(cid:1237)i cao. Tuy nhiên, ph(cid:1191)i nói là mô hình còn nh(cid:1267)ng h(cid:1189)n ch(cid:1219), và c(cid:458)ng là

nh(cid:1267)ng h(cid:1133)(cid:1247)ng m(cid:1251) mà lu(cid:1201)n v(cid:259)n c(cid:1195)n ph(cid:1191)i ti(cid:1219)p t(cid:1257)c phát tri(cid:1223)n trong th(cid:1249)i gian t(cid:1247)i nh(cid:1205)m t(cid:259)ng

(cid:255)(cid:1245) chính xác lên cao h(cid:1131)n n(cid:1267)a.

Th(cid:1261) nh(cid:1193)t, c(cid:1195)n ph(cid:1191)i có nh(cid:1267)ng l(cid:429)nh v(cid:1269)c chuyên môn cho mô hình. Trong th(cid:1249)i (cid:255)(cid:1189)i

chuyên môn hoá nh(cid:1133) hi(cid:1227)n nay, vi(cid:1227)c s(cid:1265) d(cid:1257)ng ch(cid:1133)(cid:1131)ng trình trong nh(cid:1267)ng l(cid:429)nh v(cid:1269)c chuyên

môn là c(cid:1195)n thi(cid:1219)t, (cid:255)(cid:1239)ng th(cid:1249)i, giúp cho ch(cid:1133)(cid:1131)ng trình t(cid:259)ng thêm (cid:255)(cid:1245) chính xác. Vi(cid:1227)c thêm

ch(cid:1261)c n(cid:259)ng này c(cid:458)ng không (cid:1191)nh h(cid:1133)(cid:1251)ng nhi(cid:1221)u (cid:255)(cid:1219)n mô hình. (cid:1250)(cid:3)(cid:255)ây, do th(cid:1265) nghi(cid:1227)m mô

hình m(cid:1247)i nên b(cid:1133)(cid:1247)c này (cid:255)(cid:1133)(cid:1255)c b(cid:1235) qua.

Th(cid:1261) hai, áp d(cid:1257)ng mô hình cho ph(cid:1133)(cid:1131)ng pháp thêm d(cid:1193)u online. Vi(cid:1227)c thêm d(cid:1193)u online

ngoài vi(cid:1227)c t(cid:1189)o tr(cid:1269)c quan cho ng(cid:1133)(cid:1249)i dùng, ngoài ra, có th(cid:1223) t(cid:1189)o ra 1 ph(cid:1133)(cid:1131)ng pháp gõ m(cid:1247)i,

giúp vi(cid:1227)c gõ ti(cid:1219)ng Vi(cid:1227)t (cid:255)(cid:1133)(cid:1255)c nhanh h(cid:1131)n.

Th(cid:1261) ba, mô hình có th(cid:1223) áp d(cid:1257)ng các ph(cid:1133)(cid:1131)ng pháp tách t(cid:1263) chính xác h(cid:1131)n nh(cid:1133) WFST

(cid:255)(cid:1133)(cid:1255)c s(cid:1265) d(cid:1257)ng trong mô hình c(cid:1259)a VnMark … (cid:255)(cid:1223)(cid:3)(cid:255)(cid:1189)t (cid:255)(cid:1133)(cid:1255)c (cid:255)(cid:1245) chính xác cao h(cid:1131)n n(cid:1267)a.

5.2. (cid:46)(cid:1219)t lu(cid:1201)n

Tuy mô hình không có (cid:255)(cid:76)(cid:1223)m gì m(cid:1247)i n(cid:1241)i b(cid:1201)t, nh(cid:1133)ng qua vi(cid:1227)c l(cid:1133)u tr(cid:1267) t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n c(cid:1257)m t(cid:1263)

(cid:255)(cid:1223) chuy(cid:1223)n (cid:255)(cid:1241)i t(cid:1263) linh ho(cid:1189)t thì (cid:255)ây là h(cid:1133)(cid:1247)ng phát tri(cid:1223)n r(cid:1193)t có ti(cid:1221)m n(cid:259)ng. V(cid:1247)i 1 t(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n

(cid:70)(cid:1257)m t(cid:1263) chính xác và (cid:255)(cid:1195)y (cid:255)(cid:1259) h(cid:1131)n, mô hình s(cid:1217) ho(cid:1189)t (cid:255)(cid:1245)ng t(cid:1237)t h(cid:1131)n n(cid:1267)a. Ch(cid:1261)c n(cid:259)ng Thêm

(cid:71)(cid:1193)u t(cid:1269)(cid:3)(cid:255)(cid:1245)ng(cid:3)(cid:255)(cid:1133)(cid:1255)c phát tri(cid:1223)n thành 1 DLL, cho phép tích h(cid:1255)p ch(cid:1261)c n(cid:259)ng này vào b(cid:1193)t k(cid:484)

64

trình so(cid:1189)n th(cid:1191)o nào 1 cách nhanh chóng.

TÀI LI(cid:1226)U THAM KH(cid:1190)O

[1]. Ti(cid:1219)n s(cid:429)(cid:3)(cid:264)inh (cid:264)(cid:76)(cid:1221)n. Giáo trình X(cid:1265) lý ngôn ng(cid:1267) t(cid:1269) nhiên, Khoa Công ngh(cid:1227)

Thông tin, (cid:264)(cid:1189)i h(cid:1233)c Khoa h(cid:1233)c T(cid:1269) nhiên thành ph(cid:1237) H(cid:1239) Chí Minh, Tháng

12 – 2004.

[2]. Nguy(cid:1225)n V(cid:259)n Toàn. T(cid:1269)(cid:3) (cid:264)(cid:1245)ng Gán D(cid:1193)u Thanh Ti(cid:1219)ng Vi(cid:1227)t – Trung tâm

Phát tri(cid:1223)n Công ngh(cid:1227) Thông tin, (cid:264)(cid:1189)i h(cid:1233)c Qu(cid:1237)c gia Thành ph(cid:1237) H(cid:1239) Chí

Minh.

[3]. Hoàng V(cid:259)n Hành – (cid:264)inh (cid:264)(cid:76)(cid:1221)n (1999), “T(cid:1263) ti(cid:1219)ng Vi(cid:1227)t : Khái ni(cid:1227)m – nh(cid:1201)n

di(cid:1227)n – ranh gi(cid:1247)i”, Bài ti(cid:1223)u lu(cid:1201)n môn h(cid:1233)c “T(cid:1263) v(cid:1269)ng h(cid:1233)c”, L(cid:1247)p Cao h(cid:1233)c

Ngôn ng(cid:1267) h(cid:1233)c.

[4]. Hoàng Phê (1998), T(cid:1263)(cid:3)(cid:255)(cid:76)(cid:1223)n ti(cid:1219)ng Vi(cid:1227)t, Trung tâm t(cid:1263) di(cid:1223)n h(cid:1233)c, NXB (cid:264)à

(cid:49)(cid:1207)ng.

[5]. Dien Dinh, Kiem Hoang, Toan Nguyen Van (2001), “Vietnamese Word Segmentation”, Proceedings of NLPRS’01 (The 6th Natural Language

Processing Pacific Rim Symposium), Tokyo, Japan, 11/2001, pg. 749-756

[6]. (cid:57)(cid:259)n Chí Nam, lu(cid:1201)n v(cid:259)n c(cid:1265) nhân tin h(cid:1233)c khoá 1999-2003, “X(cid:1265) lý ng(cid:1267)

ngh(cid:429)a trong h(cid:1227) d(cid:1231)ch t(cid:1269)(cid:3)(cid:255)(cid:1245)ng Anh –Vi(cid:1227)t cho các tài li(cid:1227)u tin h(cid:1233)c”, pg. 27-

30

[7]. Nguy(cid:1225)n Thái Ng(cid:1233)c Duy, lu(cid:1201)n v(cid:259)n c(cid:1265) nhân tin h(cid:1233)c khoá 2000-2004, “Xây

(cid:71)(cid:1269)ng ch(cid:1133)(cid:1131)ng trình b(cid:1203)t l(cid:1243)i chính t(cid:1191) ti(cid:1219)ng Vi(cid:1227)t và (cid:255)(cid:1221) ngh(cid:1231) t(cid:1263) thay th(cid:1219) cho

các l(cid:1243)i chính t(cid:1191) th(cid:1133)(cid:1249)ng g(cid:1211)p”, pg. 16-36, pg. 69-73

[8]. (cid:264)oàn Xuân Kiên, “Bàn v(cid:1221) chuy(cid:1227)n (cid:255)ánh d(cid:1193)u thanh trong ti(cid:1219)ng Vi(cid:1227)t”,

(cid:255)(cid:259)ng t(cid:1189)i trang http://home.tiscali.be/centre.vietnam/

[9]. (cid:264)oàn Xuân Kiên, “Xem l(cid:1189)i m(cid:1245)t v(cid:1193)n (cid:255)(cid:1221) ng(cid:1267) âm ti(cid:1219)ng Vi(cid:1227)t : c(cid:1193)u trúc âm

ti(cid:1219)t”, (cid:255)(cid:259)ng t(cid:1189)i trang http://home.tiscali.be/centre.vietnam/

65

[10]. http://www.easyvn.com

[11]. Tài li(cid:1227)u v(cid:1221) ph(cid:1195)n m(cid:1221)m VietPad (cid:255)(cid:1133)(cid:1255)c công b(cid:1237) t(cid:1189)i trang web:

http://vietpad.sourceforge.net

[12]. Tài li(cid:1227)u v(cid:1221) ph(cid:1195)n m(cid:1221)m AMPad (cid:255)(cid:1133)(cid:1255)c công b(cid:1237) t(cid:1189)i trang web:

http://www.echip.com.vn/echiproot/weblh/qcbg/duynghi/automark

66

[13]. 1 s(cid:1237) ph(cid:1195)n m(cid:1221)m h(cid:1243) tr(cid:1255) trên www.codeproject.com

Ph(cid:1257) l(cid:1257)c : C(cid:1193)u trúc kho ng(cid:1267) li(cid:1227)u

Kho ng(cid:1267) li(cid:1227)u g(cid:1239)m nhi(cid:1221)u t(cid:1201)p tin text (.txt), m(cid:1243)i t(cid:1201)p tin ch(cid:1261)a m(cid:1245)t t(cid:1201)p các câu thu(cid:1245)c cùng

1 ch(cid:1259)(cid:3)(cid:255)(cid:1221). T(cid:1201)p tin text (cid:255)(cid:1133)(cid:1255)c l(cid:1133)u v(cid:1247)i c(cid:1193)u trúc sau

o (cid:55)(cid:1201)p tin text g(cid:1239)m nhi(cid:1221)u record, m(cid:1243)i record g(cid:1239)m :

§ ID : (cid:255)(cid:1231)nh danh

§ S : n(cid:1245)i dung câu

S cách ID b(cid:1205)ng d(cid:1193)u TAB (“\t”)

(cid:38)(cid:1193)u trúc tr(cid:1133)(cid:1249)ng ID :

Thông tin ID bao g(cid:1239)m nh(cid:1267)ng n(cid:1245)i dung sau:

• Ngày (1..31) • Tháng (1..12) • (cid:49)(cid:259)m (04 = 2004) • Xu(cid:1193)t x(cid:1261) 2 ký t(cid:1269) 2 ký t(cid:1269) 2 ký t(cid:1269) 3 ký t(cid:1269)

o Ký t(cid:1269)(cid:3)(cid:255)(cid:1195)u tiên: ngu(cid:1239)n g(cid:1237)c c(cid:1259)a ng(cid:1267) li(cid:1227)u

§ B: Báo chí § T: Tác ph(cid:1197)m v(cid:259)n h(cid:1233)c § S: Sách § L Lu(cid:1201)n v(cid:259)n § V: Các lo(cid:1189)i v(cid:259)n b(cid:1191)n

o Ký t(cid:1269) th(cid:1261) hai và ba: (cid:255)(cid:1231)nh danh ngu(cid:1239)n g(cid:1237)c c(cid:1259)a ng(cid:1267) li(cid:1227)u

Thanh Niên

Tu(cid:1241)i Tr(cid:1215)

§ (cid:57)(cid:1221) báo chí: • TN: • TT: • SG: • ND: • LD: • CT: • BD: • VH: Sài Gòn Gi(cid:1191)i Phóng Nhân Dân Ng(cid:1133)(cid:1249)i Lao (cid:264)(cid:1245)ng C(cid:1195)n Th(cid:1131) Bình (cid:264)(cid:1231)nh S(cid:1203)c màu v(cid:259)n hóa

67

§ (cid:57)(cid:1221) tác ph(cid:1197)m v(cid:259)n h(cid:1233)c: nhóm làm (cid:255)(cid:1221) tài t(cid:1269) quy (cid:255)(cid:1231)nh (cid:255)(cid:1231)nh danh cho tên các tác ph(cid:1197)m V(cid:259)n h(cid:1233)c mà mình có, (cid:255)(cid:1239)ng th(cid:1249)i ph(cid:1191)i có tài li(cid:1227)u cho ph(cid:1195)n này (ý ngh(cid:429)a c(cid:1259)a t(cid:1263)ng (cid:255)(cid:1231)nh danh mà nhóm (cid:255)ó (cid:86)(cid:1265) d(cid:1257)ng và l(cid:1133)u trong t(cid:1201)p tin riêng)

• Vd: Truy(cid:847)n Ki(cid:841)u c(cid:879)a Nguy(cid:845)n Du (cid:224) TK • Vd: Cô Gái (cid:264)(cid:859) Long c(cid:879)a Kim Dung (cid:224) CG

§ (cid:57)(cid:1221) sách: cách qui (cid:255)(cid:1231)nh gi(cid:1237)ng tác ph(cid:1197)m v(cid:259)n h(cid:1233)c. § (cid:57)(cid:1221) lu(cid:1201)n v(cid:259)n: cách qui (cid:255)(cid:1231)nh gi(cid:1237)ng tác ph(cid:1197)m v(cid:259)n h(cid:1233)c. § (cid:57)(cid:1221) v(cid:259)n b(cid:1191)n: cách qui (cid:255)(cid:1231)nh gi(cid:1237)ng tác ph(cid:1197)m v(cid:259)n h(cid:1233)c. M(cid:1245)t kho ng(cid:1267) li(cid:1227)u (cid:255)áng k(cid:1223)(cid:3) (cid:255)ó là các v(cid:259)n b(cid:1191)n c(cid:1259)a Nhà N(cid:1133)(cid:1247)c, v(cid:259)n b(cid:1191)n Pháp Lu(cid:1201)t (www.luatgiapham.com),…

• Ch(cid:1259)(cid:3)(cid:255)(cid:1221) 1 ký t(cid:1269)

o (cid:57)(cid:1221) báo chí:

§ X: Xã h(cid:1245)i, tin trong n(cid:1133)(cid:1247)c, tin th(cid:1219) gi(cid:1247)i § T: Th(cid:1133)(cid:1131)ng m(cid:1189)i, kinh doanh, kinh t(cid:1219) § V: V(cid:259)n hóa, th(cid:1223) thao, (cid:255)(cid:1249)i s(cid:1237)ng, § P: Pháp lu(cid:1201)t § Y: Y t(cid:1219), s(cid:1261)c kh(cid:1235)e, § K: Khoa h(cid:1233)c, k(cid:1275) thu(cid:1201)t, tin h(cid:1233)c

o (cid:57)(cid:1221) v(cid:259)n h(cid:1233)c:

§ T: Th(cid:1131) § N: Truy(cid:1227)n ng(cid:1203)n § D: Truy(cid:1227)n dài § K: Truy(cid:1227)n ki(cid:1219)m hi(cid:1227)p

o (cid:57)(cid:1221) sách: (gi(cid:1237)ng qui (cid:255)(cid:1231)nh c(cid:1259)a báo chí)

(gi(cid:1237)ng qui (cid:255)(cid:1231)nh c(cid:1259)a báo chí)

§ o (cid:57)(cid:1221) lu(cid:1201)n v(cid:259)n: § o (cid:57)(cid:1221) v(cid:259)n b(cid:1191)n: § (gi(cid:1237)ng qui (cid:255)(cid:1231)nh c(cid:1259)a báo chí)

• (cid:54)(cid:1237) th(cid:1261) t(cid:1269) bài vi(cid:1219)t4 ký t(cid:1269) (01..9999) • (cid:54)(cid:1237) th(cid:1261) t(cid:1269) câu 3 ký t(cid:1269) (001..999)

68

(cid:55)(cid:1241)ng k(cid:1219)t l(cid:1189)i, tr(cid:1133)(cid:1249)ng ID có chi(cid:1221)u dài là: 17

69

Hình 5.2-35 : (cid:55)(cid:821)p tin kho ng(cid:887) li(cid:847)u m(cid:819)u