intTypePromotion=1

Luận văn:Cách tiếp cận dựa trên ngữ liệu cho kiểm lỗi chính tả tiếng việt

Chia sẻ: Nguyen Bao Ngoc | Ngày: | Loại File: PDF | Số trang:0

0
102
lượt xem
25
download

Luận văn:Cách tiếp cận dựa trên ngữ liệu cho kiểm lỗi chính tả tiếng việt

Mô tả tài liệu
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Dựa vào loại hình ngôn ngữ (biến cách hay đơn lập), các phương pháp kiểm lỗi chính tả có thể được chia thành hai “trường phái” chính: kiểm lỗi cho các ngôn ngữ châu Âu và kiểm lỗi cho các ngôn ngữ châu Á. Phần đầu của chương này xin giới thiệu một vài phương pháp kiểm lỗi chính tả đã được công bố và ứng dụng thành công trong thực tế cho các ngôn ngữ nước ngoài. Phần cuối chương sẽ điểm qua các công trình đã được công bố cho kiểm lỗi tiếng Việt, cùng với một số...

Chủ đề:
Lưu

Nội dung Text: Luận văn:Cách tiếp cận dựa trên ngữ liệu cho kiểm lỗi chính tả tiếng việt

  1. TR NG I H C KHOA H C T NHIÊN KHOA CÔNG NGH THÔNG TIN MÔN CÔNG NGH TRI TH C Châu H i Duy - 0112005 CÁCH TI P C N D A TRÊN NG LI U CHO KI M L I CHÍNH T TI NG VI T KHÓA LU N C NHÂN TIN H C GIÁO VIÊN H NG D N TS. inh n NIÊN KHÓA 2001 – 2005
  2. ic m n Ñ&Ò u tiên em xin t lòng bi t n sâu s c n th y inh n, ng i ãt n tình giúp , tr c ti p h ng d n và truy n t nhi u kinh nghi m quý báu em có th th c hi n và hoàn thành tài này. Em xin chân thành c m n các th y cô thu c khoa Công ngh Thông tin, tr ng i h c Khoa h c T nhiên. Các th y cô ã t n tình d y d , truy n t cho em nhi u ki n th c quý báu trong su t nh ng n m ih c em có c ngày hôm nay. Con xin g i l i c m n sâu s c n ông bà, cha m , nh ng ng i ã sinh thành và nuôi d ng con thành ng i. Sau cùng tôi xin g i l i c m n n các b n trong nhóm VCL, c bi t là n V Th y – ng i ã t ng h p và cung c p ng li u hu n luy n ch ng trình có th ho t ng. TP. H Chí Minh, tháng 7 n m 2005 Châu H i Duy – 0112005
  3. Nh n xét c a Giáo viên ph n bi n ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... Ch ký c a GVPB
  4. cl c u ..................................................................................................... 1 Ch ng 1. ng quan ........................................................................... 3 1.1. Ki m l i chính t c a ti ng n c ngoài........................................... 4 1.1.1. Ki m l i chính t cho các ngôn ng châu Âu................................... 4 1.1.1.1. Ph ng pháp T ng c nh........................................................ 4 1.1.1.2. Ph ng pháp c tr ng lân c n ................................................ 4 1.1.1.3. Ph ng pháp Danh sách quy t nh.......................................... 5 1.1.2. Ki m l i chính t cho các ngôn ng châu Á..................................... 6 1.1.2.1. Mô hình CInsunSpell cho ti ng Hoa......................................... 6 1.1.2.2. Ph ng pháp c a Nagata cho ti ng Nh t .................................. 7 1.1.3. ánh giá chung v các mô hình trên ................................................ 9 1.2. Ki m l i chính t ti ng Vi t ...........................................................10 1.2.1. Ch ng trình VietSpell.................................................................. 10 1.2.2. Ki m l i chính t d a vào phân tích cú pháp ................................. 11 1.2.3. Ki m l i chính t b ng mô hình l i t ......................................... 12 1.2.4. Word 2003 phiên b n ti ng Vi t .................................................... 13 Ch ng 2. s lý thuy t ...................................................................14 2.1. Chu n chính t ...............................................................................15 2.2. t s ki n th c c b n v chính t ti ng Vi t ..............................15 2.2.1. Các y u t c a ti ng và ch vi t: ................................................... 15 2.2.1.1. Âm ......................................................................................... 16 2.2.1.2. Ch cái................................................................................... 17 2.2.1.3. Thanh và d u .......................................................................... 17 2.2.1.4. Ti ng hay âm ti t .................................................................... 17 2.2.1.5. Hình v ................................................................................... 17 2.2.1.6. .......................................................................................... 18
  5. 2.2.2. Quy cách ghi d u thanh trên ch vi t ............................................. 19 2.2.3. t qu u tra l i chính t ........................................................... 19 2.2.3.1. thanh u ......................................................................... 19 2.2.3.2. âm u .............................................................................. 20 2.2.3.3. âm chính ........................................................................... 20 2.2.3.4. âm cu i ............................................................................. 20 2.2.4. Nguyên nhân ................................................................................. 20 2.2.4.1. thanh u ......................................................................... 20 2.2.4.2. âm u .............................................................................. 21 2.2.4.3. âm chính ........................................................................... 21 2.2.4.4. âm cu i ............................................................................. 21 2.3. c m chung c a m t h ki m l i chính t ...............................22 2.3.1. Các ch c n ng chính ..................................................................... 22 2.3.2. Các lo i l i chính t ....................................................................... 22 2.3.3. Nguyên nhân gây ra l i chính t .................................................... 23 2.3.4. Các sai l m c a trình ki m l i........................................................ 24 2.4. s tin h c .................................................................................25 2.4.1. Lu t Bayes .................................................................................... 25 2.4.2. Mô hình N-Gram t ng quát ........................................................... 26 2.4.2.1. cl ng b ng N-Gram........................................................ 26 2.4.2.2. Hu n luy n N-Gram ............................................................... 28 2.4.2.3. Làm m n ................................................................................. 29 2.4.3. Tách t .......................................................................................... 30 2.4.3.1. Kh p t i a ............................................................................ 31 2.4.3.2. WFST..................................................................................... 32 Ch ng 3. Mô hình ..............................................................................33 3.1. Mô hình t ng quát .........................................................................34 3.2. Ti n x lý ......................................................................................37
  6. 3.2.1. Tách c m ti ng .............................................................................. 37 3.2.2. Tách ti ng...................................................................................... 37 3.2.3. c “nhi u” ................................................................................... 38 3.2.3.1. Nh n di n ti ng Anh .............................................................. 38 3.2.3.2. Nh n di n t vi t t t ............................................................... 38 3.2.3.3. Nh n di n phiên âm................................................................ 38 3.3. Ki m l i non-word ........................................................................39 3.3.1. Phát hi n l i .................................................................................. 39 3.3.2. a l i ........................................................................................... 39 3.3.2.1. a l i phát âm ...................................................................... 39 3.3.2.2. a l i nh p li u..................................................................... 40 3.3.2.3. Các l i khác ........................................................................... 43 3.4. Ki m l i real-word ........................................................................43 3.4.1. Phát hi n l i b ng bigram .............................................................. 44 3.4.1.1. Ýt ng chính ........................................................................ 44 3.4.1.2. t h p v i trigram ................................................................ 45 3.4.1.3. Làm m n ................................................................................. 47 3.4.1.4. Heuristic h n ch l i tích c c ................................................. 47 3.4.2. Phát hi n l i b ng FMM và n-gram ............................................... 48 3.5. p danh sách ng viên s a l i ......................................................50 3.6. c trong quá trình ki m l i ..........................................................51 Ch ng 4. Cài t th c nghi m ..........................................................52 4.1. Cài t ...........................................................................................53 4.1.1. Chu n hoá ti ng............................................................................. 53 4.1.1.1. Mã hoá các ch cái................................................................. 53 4.1.1.2. Mã hoá ti ng .......................................................................... 53 4.1.1.3. u trúc l p Tieng.................................................................. 55 4.1.2. Mã hoá t và n-gram ..................................................................... 57
  7. 4.1.2.1. Mã hoá t ............................................................................... 57 4.1.2.2. Mã hoá n-gram ....................................................................... 58 4.1.2.3. u trúc l p Tu ...................................................................... 59 4.1.3. u trúc d li u cho các t n và các b n-gram......................... 59 4.1.4. Phát sinh ng viên ......................................................................... 60 4.1.4.1. Phát sinh các ti ng g n gi ng ................................................. 60 4.1.4.2. Phát sinh các t g n gi ng ...................................................... 61 4.1.5. Ki m l i chính t ........................................................................... 64 4.1.5.1. Dò tìm l i ............................................................................... 64 4.1.5.2. p x p các ng viên s a l i .................................................. 66 4.1.5.3. c trong quá trình ki m l i ................................................... 66 4.1.6. Hu n luy n .................................................................................... 66 4.1.7. Tích h p vào Word........................................................................ 69 4.1.8. Các x lý khác............................................................................... 70 4.1.8.1. ng mã ti ng Vi t ................................................................. 70 4.1.8.2. Linh tinh................................................................................. 70 4.1.9. Vài hình nh v Ch ng trình........................................................ 71 4.2. Th nghi m và ánh giá ...............................................................73 4.2.1. Các tham s th nghi m ................................................................ 73 4.2.2. t qu .......................................................................................... 74 4.2.3. Nh n xét........................................................................................ 79 4.2.4. So sánh v i VietSpell .................................................................... 80 4.2.4.1. Kh n ng phát hi n l i............................................................ 80 4.2.4.2. Kh n ng ngh s a l i ........................................................ 80 4.3. ánh giá và K t lu n .....................................................................88 4.4. ng phát tri n............................................................................89 Tài li u tham kh o ...................................................................................90 Ph l c ....................................................................................................92
  8. Danh sách hình Hình 1: Dò tìm l i b ng ma tr n ti ng nh m l n .................................................... 8 Hình 2: Mô hình t ng quát .................................................................................. 36 Hình 3: Bigram c m r ng v phía sau .......................................................... 47 Hình 4: Mã ti ng................................................................................................. 54 Hình 5: Mã t ..................................................................................................... 57 Hình 6: Mã n-gram ............................................................................................. 58 Hình 7: S ki m l i b ng FMM và n-gram..................................................... 65 Hình 8: Quá trình ki m l i .................................................................................. 71 Hình 9: Quá trình ki m l i hoàn t t ..................................................................... 72 Hình 10: K t qu th nghi m v i P_bi' = 5.33 .................................................... 75 Hình 11: K t qu th nghi m v i P_bi' = 4.95 .................................................... 76 Hình 12: K t qu th nghi m v i P_bi' = 4.73 .................................................... 77 Hình 13: K t qu th nghi m v i P_bi' = 4.59 .................................................... 78
  9. Danh sách b ng ng 1: Các thành ph n d nh m l n khi phát âm ............................................... 39 ng 2: Phím g c và các phím lân c n ................................................................ 42 ng 3: K t qu th nghi m................................................................................ 74 Danh sách thu t toán Thu t toán 1: Phát sinh ti ng ng viên d a vào l i phát âm................................. 40 Thu t toán 2: Phát hi n l i b ng bigram.............................................................. 45 Thu t toán 3: K t h p bigram và trigram phát hi n l i ................................... 46 Thu t toán 4: Phát hi n l i b ng FMM và n-gram ............................................... 49 Thu t toán 5: Phát sinh t ng viên..................................................................... 62 Thu t toán 6: Binary Search c i ti n.................................................................... 63 Thu t toán 7: Quá trình hu n luy n ..................................................................... 67 Thu t toán 8: Các b c t o n-gram trong giai n hu n luy n ........................... 68
  10. Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t u tv n Là m t ch vi t ghi âm, ch vi t ti ng Vi t c ng có r t nhi u quy nh v cách k t h p t ng ký t c a b ng ch cái v i nhau t o thành nh ng t có ngh a, i là chính t . Vi c dùng úng chính t r t quan tr ng, nh t là trong các v n b n hành chính. M t v n b n sai chính t có th gây khó ch u cho ng i c, làm ng i c không tin t ng vào trình c a chính ng i ã t o ra v n b n ó. Nh ng quan tr ng h n h t, vi c sai chính t có th làm ng i ti p nh n hi u sai i dung c n truy n t. Tr c ây, vi c ki m l i chính t ph i hoàn toàn d a vào s c ng i. Tuy nhiên, xã h i càng phát tri n, l ng thông tin c n truy n t ngày càng nhi u, vi c ki m l i chính t “th công” r t m t th i gian và công s c. n ây, cùng v i s phát tri n nhanh chóng c a công ngh thông tin, ng l i hành chánh n t ngày càng c m r ng và m t nhu c u m i ang c t ra: làm sao máy tính có th thay th (m t ph n hay toàn b ) cho con ng i trong vi c ki m l i chính t , hay nói cách khác là làm sao xây d ng m t ch ng trình b t l i chính t t ng. Ngoài ra, hi n nay trong nhi u v n b n khoa h c c a ti ng Vi t th ng có dùng thêm ti ng Anh chú thích cho các thu t ng ho c cho các t không th ch sát ngh a. Do ó, m t ch ng trình ki m l i chính t t ng cho các v n b n có c ti ng Vi t và ti ng Anh là r t c n thi t. Thêm vào ó, vi c ki m l i chính t còn có th c dùng trong giai n ti n x lý c a r t nhi u bài toán khác v x lý ngôn ng t nhiên, ví d nh : phân lo i v n b n, tóm t t v n b n, d ch t ng, nh n d ng ch vi t, nh n d ng gi n g nói, … Tuy nhiên, trong khi bài toán ki m l i chính t cho các ngôn ng châu Âu ã c gi i quy t m t cách khá tr n v n, vi c ki m l i chính t cho ti ng Vi t l i -1-
  11. Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t p nhi u khó kh n. Vì v y, cho n nay, m c dù ã có vài công trình v tài này nh ng h u nh ch a có công trình nào c áp d ng vào th c t . c tiêu c a tài Nh ã nói trên, m t ch ng trình ki m l i chính t t ng là r t c n thi t trong hoàn c nh hi n nay. Tuy ã có m t s công trình v tài này nh ng h u h t ch a áp d ng c vào th c t . T nh ng u ki n trên, tôi ã ch n ki m l i chính t làm lu n v n t t nghi p c a mình. c tiêu sau cùng c a tài này là m t ch ng trình ki m l i chính t hoàn ch nh, có th c s d ng ngay trong th c t . t c yêu c u này, ngoài hi u qu th c t , các mô hình ngôn ng c áp d ng ây không nên quá u k , ph c t p ho c òi h i nhi u không gian nh . Tù nh ng yêu c u trên, tôi ch n n-gram ti ng làm h ng ti p c n chính. Mô hình n-gram có m t s u m, ó là không quá ph c t p trong x lý, và n u c t ch c c u trúc d li u t t, l ng b nh chi m d ng là ch p nh n c. Trong mô hình c a tài này, n-gram c dùng làm ph ng ti n tính toán các xác su t, các m i liên k t gi a nh ng ti ng trong v n b n, dò tìm ra nh ng vùng b i, và sau cùng a ra các ngh s a ch a cho ng i dùng l a ch n. c c lu n v n Lu n v n này g m 4 ch ng v i n i dung chính nh sau: • Ch ng 1: Trình bày tình hình phát tri n c a ki m l i chính t trên th gi i, ánh giá m t s ph ng pháp ã c công b . • Ch ng 2: Các v n lý thuy t c dùng n trong lu n v n, g m lý thuy t ngôn ng h c và tin h c. • Ch ng 3: Mô hình và ph ng pháp c s d ng trong lu n v n. • Ch ng 4: Tóm t t quá trình cài t, cùng v i các th nghi m và ánh giá v lu n v n cùng h ng phát tri n sau này. Ngoài ra còn có ph n tài li u tham kh o và ph l c. -2-
  12. Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t Ch ng 1. ng quan nh ng n m 60 c a th k XX, bài toán ki m l i chính t ng b ng máy tính ã nh n c s quan tâm c a các nhà khoa h c. Cho n nay, r t nhi u thu t toán, mô hình gi i quy t bài toán này ã c công b , tuy nhiên h u h t chúng u t p trung vào các ngôn ng bi n cách c a châu Âu nh ti ng Anh, ti ng Pháp,… còn ki m l i chính t cho các ngôn ng n l p c a châu Á nh ti n g Hoa, ti ng Vi t,… ch m i b t u c nghiên c u g n ây. Hi n nay, v n ang c quan tâm nh t trong ki m l i chính t là ki m i chính t c m ng c nh. Khác v i các ph ng pháp ki m l i chính t truy n th ng, v n xem xét các t m t cách c l p nhau và ch y u d a vào t n, trong ki m l i chính t c m ng c nh, quy t nh m t t có b sai chính t hay không, h th ng ph i xét n các c tr ng xung quanh nó nh t lân c n, t lo i, tr t t t ,… Do ó, ph ng pháp ki m l i c m ng c nh có th phát hi n c nh ng l i sai v cách dùng t , t c là t v n không b sai chính t , nh ng trong hoàn c nh c a câu v n thì vi c dùng nó là không h p lý. Tuy nhiên, i cùng v i hi u qu cao là s khó kh n trong cách ti p c n. a vào lo i hình ngôn ng (bi n cách hay n l p), các ph ng pháp ki m l i chính t có th c chia thành hai “tr ng phái” chính: ki m l i cho các ngôn ng châu Âu và ki m l i cho các ngôn ng châu Á. Ph n u c a ch ng này xin gi i thi u m t vài ph ng pháp ki m l i chính t ã c công b và ng d ng thành công trong th c t cho các ngôn ng c ngoài. Ph n cu i ch ng s m qua các công trình ã c công b cho ki m l i ti ng Vi t, cùng v i m t s nh n xét v chúng. -3-
  13. Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t 1.1. Ki m l i chính t c a ti ng n c ngoài 1.1.1. Ki m l i chính t cho các ngôn ng châu Âu Nh ã nói trên, bài toán ki m l i chính t cho các ngôn ng châu Âu, nh t là ti ng Anh, ã c tìm hi u t r t s m, v i nhi u mô hình, ph ng pháp khác nhau nh T ng c nh [GS96] , Lai Bayes [Gol95], Winnow [GR99],… Tuy nhiên, ph ng pháp ki m l i chính t c m ng c nh nh n c nhi u nhà khoa c quan tâm nh t do nó có nhi u u m so v i cách ki m l i ch d a vào t n. ng pháp T ng c nh1 1.1.1.1. Ph t trong nh ng um i phân bi t m t t v i nh ng t nh p nh ng v i nó là các t xung quanh nó trong câu. Ví d , khi ang xem xét ch n l a gi a dessert và desert, n u có các t nh arid, sand, sun,… g n ó, ta s ch n desert, còn n u g p các t nh chocolate, delicious,… g n ó, ta s ch n dessert. Ph ng pháp T ng c nh c Golding xây d ng d a trên nh n xét này. Trong giai n c, v i m i t th ng b vi t sai chính t , h th ng s ghi nh nh ng t th ng xu t hi n xung quanh nó trong ng li u. Khi ch y th c t , v i m i t nghi ng , h th ng s xem xét các t lân c n v i nó, sau ó ch n ra t thích h p nh t làm t thay th . c tr ng lân c n2 1.1.1.2. Ph ng pháp Ph ng pháp T ng c nh r t t t trong vi c phát hi n các nguyên t c chung nh t ph thu c vào nh ng t lân c n, nh ng không quan tâm n tr t t c a chúng. Trong tr ng h p ó, các ph ng pháp c tr ng lân c n t ra r t thích p rút ra các quy lu t v tr t t . 1 Context words 2 Collocations -4-
  14. Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t t c tr ng lân c n là m t m u các y u t v cú pháp xung quanh t ang xét. Có hai c tr ng th ng c s d ng trong ph ng pháp này, ó là nhãn t lo i và t lân c n. Ph ng pháp c tr ng lân c n c th c hi n theo cách th c t ng t v i ph ng pháp T ng c nh. Ý t ng chính ây là phân bi t nh ng t d b dùng nh m l n v i nhau d a vào các c tr ng lân c n c a chúng. M i c tr ng lân nh3 khác nhau cho nh ng t trong n cung c p vài d u hi u v i kh n ng quy t p nh m l n. Nh ng d u hi u này c k t h p v i nhau và tính toán theo m t lu t quy t nh (th ng là Bayes). Sau cùng, t nào có h p lý cao nh t s c ch n. Tuy nhiên, ph ng pháp c tr ng lân c n c ng có nh c m, ó là khi t4. t t có các c tr ng mâu thu n ho c hàm ch a nhau, g i là xung ph ng pháp này ho t ng t t, các c tr ng xung t v i nhau c n c phát hi n và lo i b . Hi n nay, ngoài heuristic, v n ch a có m t ph ng pháp hoàn ch nh gi i quy t v n này. 1.1.1.3. Ph ng pháp Danh sách quy t nh Danh sách quy t nh là s k t h p c a T ng c nh và c tr ng lân c n t n d ng u m c a c hai ph ng pháp này: T ng c nh s rút ra các nguyên t c t t nh t theo cách c l p v i tr t t t , còn c tr ng lân c n c dùng rút ra các nguyên t c ph thu c vào tr t t . Ph ng pháp này òi h i ph i xây d ng m t danh sách r t l n các c tr ng - ây là các t ng c nh và các c tr ng lân c n. Nh ng c tr ng c p x p theo kh n ng quy t nh gi m d n, trong ó kh n ng quy t nh c a m i c tr ng ph n ánh tin c y c a nó trong vi c ra quy t nh. M t t nh p nh n g c phân lo i b ng cách duy t qua danh sách và so kh p t ng c tr n g v i ng c nh. c tr ng phù h p u tiên s c dùng phân lo i t ang xét. 3 Strength 4 Conflict -5-
  15. Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t Vì Danh sách quy t nh a ra l i gi i ch d a vào m t c tr ng m nh nh t, hi u su t c a nó ph n l n tùy thu c vào cách xác nh kh n ng quy t nh cho nh ng c tr ng. ây chính là nh c m c a ph ng pháp này, b i vì vi c tìm ra m t công th c ánh giá t ng quát là r t khó. Do ó, Danh sách quy t nh có th c c i ti n b ng cách dùng nhi u c tr ng h n. Theo ó, l a ch n các t t t nh t, h th ng s duy t qua toàn b danh sách c tr ng, so sánh t ng c tr ng v i ng c nh, r i k t h p chúng a ra l i gi i sau cùng. Vi c k t h p các c tr ng có th c th c hi n nh vào t b phân lo i, ví d nh nh Bayes. 1.1.2. Ki m l i chính t cho các ngôn ng châu Á n ây, ki m l i chính t cho các ngôn ng châu Á ã c quan tâm và t c m t s thành t u. Không nh các ngôn ng châu Âu, vi c ki m l i chính cho các ngôn ng n l p c a châu Á g p nhi u khó kh n. Nguyên nhân ch u là do các ngôn ng c a châu Á nh ti ng Hoa, ti ng Nh t, ti ng Hàn,… không có ranh gi i t rõ ràng. áp d ng nh ng mô hình ki m l i chính t c m ng nh c a các ngôn ng châu Âu, v n b n ti ng châu Á c n c xác nh ranh gi i . Vi c xác nh ranh gi i t ngay khi v n b n u vào là úng chính t ã là không n gi n. V i v n b n u vào sai chính t , bài toán tách t càng khó kh n n. Do ó, các nhà ngôn ng h c – tin h c c a châu Á ã ra m t s mô hình i cho ki m l i chính t . Ph n này s m qua m t vài mô hình trong s ó. 1.1.2.1. Mô hình CInsunSpell cho ti ng Hoa Mô hình ki m l i này có tên là CInsunSpell [JX00] c xu t b i Li Jianhua và Wang Xiaolong, là s k t h p gi a Trigram ti ng, ph ng pháp c ng 5 , ng Bayes và Phân ph i tr ng s t c dùng cho s a l i chính t ti ng Hoa. 5 Automatic Weight Distribution -6-
  16. Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t Trigram c dùng trong b c ki m l i. Theo ó, m t “c a s ” trigram kích th c5 c dùng ánh giá m i liên k t gi a các ti ng v i nhau. C a s trigram th c ra là m t chu i con, v i ti ng c n xét trung tâm, và 4 ti ng lân c n xung quanh (2 ti ng li n tr c và 2 ti ng li n sau). Ti ng trung tâm c xem là sai chính t khi hai liên k t tr c và sau nó u y u. Liên k t c xem là y u khi có có giá tr nh h n m t giá tr ng ng. u h t các mô hình dùng n-gram u g p tr ng i chính, ó là d li u quá th a th t, d n n các xác su t n-gram s r t th p (th ng có giá tr b ng 0). kh c ph c, các tác gi c a CInsunSpell dùng thêm bigram cùng v i làm m n b ng cách m r ng c a s bigram t 3 ti ng thành 4 ti ng v phía sau nâng cao hi u su t phát hi n l i. phân lo i Bayes c dùng trong b c s a l i. Ý t ng chính là tìm chu i thích h p nh t (có xác su t cao nh t) t chu i u vào làm ph ng án s a i. ánh giá s phù h p c a chu i s a l i, Bayes c k t h p v i ph ng i ít nh t6 [WF74] pháp Phân ph i tr ng s t ng d a trên S phép bi n bi n chu i u vào thành chu i s a l i. Theo th nghi m c a các tác gi , CInsunSpell có t l phát hi n l i là kho ng 60%, t l l i tích c c kho ng 10%. Hai giá tr này thay i tùy vào các ng ng c dùng trong h th ng. 1.1.2.2. Ph ng pháp c a Nagata cho ti ng Nh t Ph ng pháp c a Nagata [Na98] c áp d ng u tiên cho các h th n g nh n d ng ch vi t (OCR). Tuy nhiên nó v n có th c dùng s a các l i chính t do con ng i gây ra. Ph ng pháp c a Masaaki g m hai giai n: Trong giai n th nh t, câu nh p vào c chia thành nhi u chu i ti ng, v i u ki n m i chu i ti ng t o thành m t t có trong t n ho c n gi ng v i ít nh t m t t nào ó trong t n. Trong giai n th hai, b ng các ph ng pháp th ng kê, n chu i t t t nh t 6 Minimun edit distance -7-
  17. Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t c t o thành t nh ng “t ” ã có giai n tr c) c ch n làm ng viên a l i. D i ây là ví d minh h a cho cách ti p c n này: Câu u vào: Tôi lam vi c hp tát x mua bán Ma tr n ti ng nh m l n: lám hp tác s báng làm tt xã lãm lm Tôi lam vi c p tát mua bán lám p tác mua báng làm vi c p t xã lãm p tác m p tác xã Hình 1: Dò tìm l i b ng ma tr n ti ng nh m l n có th chia chu i u vào thành các chu i con m t cách h p lý, h th ng dùng hai ph ng pháp, ó là Mô hình ngôn ng th ng kê và Thu t toán Forward-DB Backward A* tách t . Ngôn ng th ng kê c dùng tính xác su t k t h p c a chu i con và chu i nhãn t lo i. Xác su t k t h p này th c ra là tích xác su t xu t hi n c a chu i con v i xác su t xu t hi n chu i nhãn trong ng li u hu n luy n. Sau cùng Thu t toán Forward-DB Backward A* [Na94] c dùng ánh giá các xác su t -8-
  18. Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t t h p ó, sau cùng tìm ra cách k t h p có xác su t l n nh t làm l i gi i cho bài toán tách t . Theo ánh giá c a tác gi , ph ng pháp này giúp c i thi n chính xác c a OCR t 90% lên 96%, hi u su t tách t là 93%. 1.1.3. ánh giá chung v các mô hình trên Các ph ng pháp T ng c nh, c tr ng lân c n và Danh sách quy t nh ã c ng d ng r t thành công cho các ngôn ng châu Âu nh ti ng Anh, ti ng Pháp, ti ng Tây Ban Nha,… Tuy nhiên áp d ng các mô hình ó cho ti ng Vi t, nbn u vào c n ph i c tách t b ng m t mô hình tách t m . Mô hình tách t m không t t s làm gi m áng k hi u su t chung c a toàn h th ng. Cho n nay v n ch a có m t mô hình tách t m hoàn ch nh cho ti ng Vi t. Ngoài ra, u h t các ph ng pháp cho ti ng Anh u òi h i ng li u ã c gán nhãn t lo i, trong khi n nay v n ch a có kho ng li u ti ng Vi t tho mãn yêu c u này. Thêm vào ó, các ph ng pháp nh Danh sách quy t nh và Bayes òi h i h th ng ph i th c hi n nhi u thao tác x lý khá ph c t p nh n ra t sai chính t nên c ng khó c áp d ng vào th c t . Do ó chúng tôi ch xem nh ng mô hình a Golding nh là ngu n tài li u tham kh o thêm mà không áp d ng chúng. i h th ng CInSunSpell cho ki m l i ti ng Hoa, các tác gi ã dùng c a Bigram và Trigram m c ti ng dò tìm ti ng sai chính t . ó là cách ti p c n t phù h p cho ti ng Vi t vì không c n ph i tách t . Bên c nh ó, mô hình này còn có nh ng u m khác. u m u tiên là tính n gi n trong cài t c ng nh trong quá trình x lý. u m th hai, c ng là c m quan tr ng nh t, CInsunSpell không òi h i kho ng li u hu n luy n ã c tách t hay gán nhãn lo i mà ch c n m t kho ng li u úng chính t . V i nh ng c m ó, vi c áp d ng CInsunSpell cho ti ng Vi t có nhi u kh n ng s thành công trong th c t . Mô hình s a l i chính t c a Masaaki cho ti ng Nh t, v m t lý thuy t c n g có th áp d ng ngay cho ti ng Vi t mà không c n s a i nhi u vì Nh t-Vi t u là các ngôn ng n l p. Tuy nhiên, c ng nh m t s mô hình dùng cho ti ng -9-
  19. Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t Anh, mô hình này c n có kho ng li u ã c tách t và gán nhãn t lo i, ó là u ch a th áp ng c. Bên c nh ó, vi c dò tìm ph ng án s a l i b ng ma tr n ti ng nh m l n, khi áp d ng vào ti ng Vi t, s ph i ng u v i m t th thách m i: bùng n t h p, nh t là trong th c t , các l i sai khi nh p li u r t a ng nên t p nh m l n khá l n. Do ó, vi c áp d ng mô hình c a Maasaki cho ti ng Vi t ngay lúc này là r t khó kh n. 1.2. Ki m l i chính t ti ng Vi t Ki m l i chính t là m t bài toán khó, nh t là ki m l i chính t cho các ngôn ng n l p nh ti ng Vi t, ti ng Hoa. Tr c khi tôi th c hi n tài này, nh ng ng i i tr c ã công b m t s công trình nghiên c u v ki m l i chính t ti ng Vi t v i các h ng ti p c n khác nhau. M i cách ti p c n có các u-khuy t m khác nhau. Tuy nhiên, ngoài VietSpell, h u h t chúng u ch a c áp d ng thành công trong th c t . Ph n này s m qua các công trình ó, cùng v i m t vài nh n xét v chúng. Ngoài ra, trong n m nay c ng có m t s ki n áng chú ý: Microsoft phát hành trình x lý n b n MS Word 2003 giao di n ti ng Vi t có kèm ch c n ng ki m l i chính t ti ng Vi t. 1.2.1. Ch ng trình VietSpell VietSpell c a L u Hà Xuyên là ch ng trình ki m l i chính t ã th ng i hoá và c s d ng r ng rãi hi n nay. Ch ng trình này có nhi u u m nh g n nh , x lý nhanh, tích h p t t. Nh ng nh n xét, ánh giá v ch ng trình này c rút ra t VietSpell Pro phiên b n 3.0. Nhìn chung, VietSpell là m t ch ng trình t t, b i vì ngoài vi c ki m l i chính t , nó còn có các ch c n ng h u ích cho ng i Vi t nh chuy n mã, b gõ, nh ng ch c n ng ó không c xem xét ây. Tuy nhiên, dùng nó m t cách p pháp, khách hàng ph i tr ti n b n quy n. u này không ph i ng i dùng nào c ng áp ng c. - 10 -
  20. Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t Tuy nhiên, v i ch c n ng ki m l i chính t , VietSpell không h có m t mô hình ngôn ng hoàn ch nh, mà ch phát hi n l i d a vào các heuristic, nên v n còn ph m m t s l i tích c c l n tiêu c c, Bên c nh ó, VietSpell v n gây ra m t s xung t v i MS Word, nh t là v i MS Word các phiên b n sau này nh Word 2003. Ngoài ra, VietSpell v n còn m t s l i v k thu t thi t k ch ng trình nh ch n kh i sai, ôi khi làm h v n b n ngu n, a ra ngh s a l i m t cách không h p lý, … 1.2.2. Ki m l i chính t d a vào phân tích cú pháp m 1999, trong lu n v n t t nghi p i h c, Nguy n c H i và Nguy n Ph m H nh Nhi [HN99] ã xu t mô hình ki m l i chính t ti ng Vi t b ng cách phân tích cú pháp. ây c xem là cách ti p c n d a trên lu t. Theo mô hình này, câu u vào s c h th ng ti n hành phân tích cú pháp b ng thu t toán Earley. Nh ng ch không phân tích c s b xem là l i chính t . Earley là m t thu t toán m nh cho phân tích cú pháp. Tuy nhiên do có ph c t p cao: O(n3) v i n là s ti ng trong câu, Earley c n c cài tt t t ng th i gian x lý. áp d ng Earley cho ti ng Vi t, câu u vào c n ph i c tách t trong u ki n nó có th b sai chính t . ó là khó kh n th nh t. m khó kh n th hai, là các lu t ng pháp c a ngôn ng t nhiên r t ph c t p, ti ng Vi t có kho ng 3000 lu t, trong khi ch ng trình ch t p h p c kho ng 700 lu t. m khó kh n ti p theo, ti ng Vi t là ngôn ng n l p, s ti ng l i ít, nên vi c ph i h p các ti ng t o thành câu “nghe có v h p lý” c ng nhi u, do ó có r t nhi u tr ng h p câu sai chính t nh ng v n phân tích cú pháp c. ây là h n ch chính c a ph ng pháp này. ng v i cách ti p c n trên, [TPLT98] ã xây d ng ch ng trình ki m l i chính t VPCTTV. Ch ng trình này có ph n hoàn ch nh h n [HN99] do có n 140 t lo i, 2000 lu n và t chính xác 95%. - 11 -
ADSENSE
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2