Luận văn Xây dựng chương trình bắt lỗi chính tả tiếng Việt

Chia sẻ: Vo Kiem | Ngày: | Loại File: PDF | Số trang:173

0
267
lượt xem
86
download

Luận văn Xây dựng chương trình bắt lỗi chính tả tiếng Việt

Mô tả tài liệu
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Vấn đề nghiên cứu Xây dựng chương trình bắt lỗi chính tả tiếng Việt nhằm phát hiện và đề nghị từ thay thế cho các lỗi chính tả thường gặp. Đề tài này chỉ giới hạn bắt lỗi chính tả trong các văn bản hành chính. Cách tiếp cận Sử dụng cách tiếp cận như sau: Phát sinh những câu có khả năng thay thế dựa trên các nguyên nhân gây lỗi chính tả, sau đó sử dụng mô hình ngôn ngữ dựa trên từ để xác định câu đúng nhất. Dựa trên sự khác biệt giữa câu gốc...

Chủ đề:
Lưu

Nội dung Text: Luận văn Xây dựng chương trình bắt lỗi chính tả tiếng Việt

  1. Luận văn Xây dựng chương trình bắt lỗi chính tả tiếng Việt
  2. L i c m ơn L i đ u tiên em xin chân thành c m ơn th y Đinh Đi n, ngư i đã tr c ti p hư ng d n em hoàn thành lu n văn này. Th y là ngư i đã truy n th cho em TN r t nhi u ki n th c v tin h c và ngôn ng h c, giúp em có đư c hi u bi t sâu hơn v m t trong các ng d ng có ý nghĩa vô cùng to l n trong cu c s ng c a tin h c —- v n đ d ch máy. H Em cũng xin chân thành c m ơn các th y cô trong khoa Công ngh thông K tin đã t n tình ch b o và giúp đ cho em trong su t th i gian em h c đ i h c và h tr em trong quá trình th c hi n lu n văn. H Con xin chân thành c m ơn ba m , các anh và nh ng ngư i thân trong gia đình đã nuôi d y, t o m i đi u ki n t t nh t cho con h c t p và đ ng viên Đ con trong th i gian th c hi n lu n văn. Và cu i cùng, xin g i l i c m ơn đ n t t c b n bè và nh t là các b n – trong nhóm VCL (Vietnamese Computational Linguistics), nh ng ngư i đã TT giúp đ và h tr trong quá trình hoàn thi n lu n văn này. N Tp. H Chí Minh, tháng 7 năm 2004 C Nguy n Thái Ng c Duy — 0012020 A O H K
  3. TN M cl c H K Tóm t t lu n văn 8 H 1 M đ u 10 1.1 N i dung bài toán . . . . . . . . . . . . . . . . . . . . . . . 11 Đ 1.2 Đ c đi m . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 – 1.3 Hư ng gi i quy t . . . . . . . . . . . . . . . . . . . . . . . 14 1.4 B c c lu n văn . . . . . . . . . . . . . . . . . . . . . . . . 15 TT 2 Cơ s lý thuy t ngôn ng 16 2.1 Âm ti t . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 N 2.1.1 Nguyên âm và ph âm . . . . . . . . . . . . . . . . 17 C 2.1.2 Âm v . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.1.3 Âm ti t . . . . . . . . . . . . . . . . . . . . . . . . 19 A 2.1.4 Ph âm đ u . . . . . . . . . . . . . . . . . . . . . . 23 O 2.1.5 V n . . . . . . . . . . . . . . . . . . . . . . . . . . 25 H 2.1.6 Thanh đi u . . . . . . . . . . . . . . . . . . . . . . 30 2.2 T . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 K 2.2.1 Đ nh nghĩa t . . . . . . . . . . . . . . . . . . . . . 32 2.2.2 Đ c đi m c a t . . . . . . . . . . . . . . . . . . . 36 2.2.3 Các quan ni m v hình v và t trong ti ng Vi t . . . 37 1
  4. M CL C 2 2.3 T láy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.4 Chính t ti ng Vi t . . . . . . . . . . . . . . . . . . . . . . 39 2.4.1 T ng quan v ch vi t ti ng Vi t . . . . . . . . . . . 39 2.4.2 Chính t ti ng Vi t . . . . . . . . . . . . . . . . . . 41 TN 2.4.3 L i chính t . . . . . . . . . . . . . . . . . . . . . . 45 3 Cơ s tin h c 46 H 3.1 B t l i chính t . . . . . . . . . . . . . . . . . . . . . . . . 47 3.1.1 Phân lo i l i chính t . . . . . . . . . . . . . . . . . 47 K 3.1.2 Phát hi n l i chính t . . . . . . . . . . . . . . . . . 49 3.1.3 Các sai l m c a trình b t l i chính t . . . . . . . . 49 H 3.1.4 V n đ ch hoa, ch thư ng . . . . . . . . . . . . . 50 Đ 3.2 L p danh sách t đ ngh . . . . . . . . . . . . . . . . . . . 51 3.2.1 L i phát âm sai . . . . . . . . . . . . . . . . . . . . 52 – 3.2.2 L i nh p sai . . . . . . . . . . . . . . . . . . . . . 53 TT 3.2.3 Các l i khác . . . . . . . . . . . . . . . . . . . . . 54 3.3 S p x p danh sách . . . . . . . . . . . . . . . . . . . . . . 55 3.3.1 Văn ph m ràng bu c . . . . . . . . . . . . . . . . . 55 N 3.3.2 M t đ quan ni m . . . . . . . . . . . . . . . . . . 56 C 3.4 B t l i t đ ng . . . . . . . . . . . . . . . . . . . . . . . . 59 3.4.1 Mô hình TBL . . . . . . . . . . . . . . . . . . . . . 59 A 3.4.2 Mô hình Winnow . . . . . . . . . . . . . . . . . . . 62 O 3.4.3 Mô hình Danh sách quy t đ nh . . . . . . . . . . . . 65 3.4.4 Mô hình Trigram và Bayes . . . . . . . . . . . . . . 66 H 3.4.5 Mô hình Bayes và Danh sách quy t đ nh . . . . . . 67 K 3.5 B t l i ti ng châu Á . . . . . . . . . . . . . . . . . . . . . . 68 3.6 Tách t . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 3.6.1 Kh p t i đa . . . . . . . . . . . . . . . . . . . . . . 71
  5. M CL C 3 3.6.2 Mô hình HMM . . . . . . . . . . . . . . . . . . . . 72 3.6.3 Mô hình WFST và m ng nơ-ron . . . . . . . . . . . 73 3.6.4 Mô hình Source-Channel c i ti n . . . . . . . . . . 73 3.6.5 Mô hình TBL . . . . . . . . . . . . . . . . . . . . . 75 TN 3.7 Tách t m . . . . . . . . . . . . . . . . . . . . . . . . . . 76 3.7.1 Hu n luy n . . . . . . . . . . . . . . . . . . . . . . 77 H 4 Mô hình 79 4.1 Mô hình chung . . . . . . . . . . . . . . . . . . . . . . . . 80 K 4.1.1 Ti n x lý . . . . . . . . . . . . . . . . . . . . . . . 82 4.1.2 B t l i non-word . . . . . . . . . . . . . . . . . . . 82 H 4.1.3 B t l i real-word . . . . . . . . . . . . . . . . . . . 82 Đ 4.2 Ti n x lý . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 4.2.1 Tách token . . . . . . . . . . . . . . . . . . . . . . 83 – 4.2.2 Tách câu . . . . . . . . . . . . . . . . . . . . . . . 85 TT 4.2.3 Chu n hoá . . . . . . . . . . . . . . . . . . . . . . 85 4.2.4 Ch vi t hoa . . . . . . . . . . . . . . . . . . . . . 87 4.2.5 T nư c ngoài, t vi t t t, các ký hi u . . . . . . . . . 87 N 4.3 B t l i non-word . . . . . . . . . . . . . . . . . . . . . . . 88 C 4.3.1 Tìm l i chính t . . . . . . . . . . . . . . . . . . . . 88 4.3.2 L p danh sách t đ ngh . . . . . . . . . . . . . . . 88 A 4.3.3 S p x p danh sách t đ ngh . . . . . . . . . . . . 96 O 4.4 B t l i real-word . . . . . . . . . . . . . . . . . . . . . . . 96 4.4.1 Lư i t . . . . . . . . . . . . . . . . . . . . . . . . 96 H 4.4.2 T o lư i t . . . . . . . . . . . . . . . . . . . . . . 99 K 4.4.3 M r ng lư i t — Ph c h i l i . . . . . . . . . . . 100 4.4.4 Hoàn ch nh lư i t . . . . . . . . . . . . . . . . . . 103 4.4.5 Áp d ng mô hình ngôn ng — Tách t . . . . . . . 103
  6. M CL C 4 4.4.6 Tìm l i chính t . . . . . . . . . . . . . . . . . . . . 106 4.4.7 L p danh sách t đ ngh . . . . . . . . . . . . . . . 106 4.4.8 S p x p danh sách t đ ngh . . . . . . . . . . . . 107 4.4.9 Các heuristic đ c i thi n đ chính xác . . . . . . . 107 TN 4.5 Hu n luy n . . . . . . . . . . . . . . . . . . . . . . . . . . 111 4.5.1 Hu n luy n mô hình ngôn ng . . . . . . . . . . . . 112 H 5 Cài đ t 120 5.1 C u trúc d li u . . . . . . . . . . . . . . . . . . . . . . . . 122 K 5.1.1 Lưu chu i . . . . . . . . . . . . . . . . . . . . . . . 122 5.1.2 T đi n . . . . . . . . . . . . . . . . . . . . . . . . 123 5.1.3 Câu . . . . . . . . . . H . . . . . . . . . . . . . . . . 124 5.1.4 Lư i t . . . . . . . . Đ . . . . . . . . . . . . . . . . 124 5.1.5 Cách tách t . . . . . . . . . . . . . . . . . . . . . 125 – 5.1.6 Mô hình ngôn ng . . . . . . . . . . . . . . . . . . 125 TT 5.2 Ti n x lý . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 5.2.1 Tách token . . . . . . . . . . . . . . . . . . . . . . 126 5.2.2 Tách câu . . . . . . . . . . . . . . . . . . . . . . . 126 N 5.3 Lư i t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 C 5.3.1 T o lư i t . . . . . . . . . . . . . . . . . . . . . . 126 5.3.2 B sung lư i t . . . . . . . . . . . . . . . . . . . . 132 A 5.3.3 Tìm cách tách t t t nh t . . . . . . . . . . . . . . . 132 O 5.3.4 L i phát âm . . . . . . . . . . . . . . . . . . . . . . 135 5.3.5 Danh t riêng . . . . . . . . . . . . . . . . . . . . . 136 H 5.3.6 L i bàn phím . . . . . . . . . . . . . . . . . . . . . 137 K 5.4 B t l i chính t . . . . . . . . . . . . . . . . . . . . . . . . 137 5.4.1 Separator . . . . . . . . . . . . . . . . . . . . . . . 142 5.4.2 vspell-gtk . . . . . . . . . . . . . . . . . . . . . . . 142
  7. M CL C 5 5.5 Hu n luy n . . . . . . . . . . . . . . . . . . . . . . . . . . 146 5.5.1 D li u hu n luy n . . . . . . . . . . . . . . . . . . 146 5.5.2 D li u ngu n . . . . . . . . . . . . . . . . . . . . 146 5.5.3 Ti n x lý ng li u hu n luy n . . . . . . . . . . . . 147 TN 5.5.4 Hu n luy n d li u . . . . . . . . . . . . . . . . . . 148 5.6 Linh tinh . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 5.6.1 X lý b ng mã . . . . . . . . . . . . . . . . . . . . 148 H 5.6.2 So sánh chu i . . . . . . . . . . . . . . . . . . . . . 149 K 5.6.3 X lý ti ng Vi t . . . . . . . . . . . . . . . . . . . . 149 6 Đánh giá và k t lu n 150 6.1 Tóm t t . . . . . . . . . . . H . . . . . . . . . . . . . . . . . 152 6.2 Th nghi m . . . . . . . . Đ . . . . . . . . . . . . . . . . . . 152 6.3 Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 – 6.4 Hư ng phát tri n . . . . . . . . . . . . . . . . . . . . . . . 158 TT Tài li u tham kh o 160 N Ph l c 165 C A D li u ki m tra 165 A O H K
  8. TN Danh sách hình v H 2.1 C u trúc âm ti t . . . . . . . . . . . . . . . . . . . . . . . . 22 K 4.1 Mô hình chung . . . . . . . . . . . . . . . . . . . . . . . . 81 H 4.2 Lư i t c a câu “H c sinh h c sinh h c” . . . . . . . . . . . 97 4.3 Lư i t m r ng c a câu “H c sinh h c sinh h c” . . . . . . 98 Đ 4.4 Lư i 2-t c a câu “H c sinh h c sinh h c” . . . . . . . . . 98 – 4.5 Sơ đ tr ng thái phân tích c u trúc ti ng . . . . . . . . . . . 101 TT 5.1 Quy t c tách token dùng flex . . . . . . . . . . . . . . . . . 127 5.2 Giao di n vspell-gtk . . . . . . . . . . . . . . . . . . . . . 143 N C A O H K 6
  9. TN Danh sách b ng H 2.1 B ng nguyên âm . . . . . . . . . . . . . . . . . . . . . . . 42 K 2.2 B ng ph âm và bán nguyên âm cu i . . . . . . . . . . . . 43 2.3 B ng ph âm đ u . . . . . . . . . . . . . . . . . . . . . . . 43 4.1 H Danh sách phím lân c n . . . . . . . . . . . . . . . . . . . 91 Đ 4.2 Ki u gõ VNI-TELEX . . . . . . . . . . . . . . . . . . . . . 92 – 6.1 K t qu th nghi m t p d li u 1 . . . . . . . . . . . . . . . 155 TT 6.2 K t qu t p th nghi m d li u 2 . . . . . . . . . . . . . . . 156 N C A O H K 7
  10. TN Tóm t t lu n văn H V n đ nghiên c u Xây d ng chương trình b t l i chính t ti ng Vi t nh m K phát hi n và đ ngh t thay th cho các l i chính t thư ng g p. Đ tài này ch gi i h n b t l i chính t trong các văn b n hành chính. H Đ Cách ti p c n S d ng cách ti p c n như sau: Phát sinh nh ng câu có kh năng thay th d a trên các nguyên nhân gây l i chính t , sau đó s d ng mô – hình ngôn ng d a trên t đ xác đ nh câu đúng nh t. D a trên s khác bi t TT gi a câu g c và câu đư c ch n, ta s có th bi t đư c t nào sai chính t , và cách vi t đúng chính t là như th nào. Mô hình s d ng ng li u thô chưa tách t , t hu n luy n đ phù h p v i m c đích c a mô hình. N Mô hình b t l i chính t theo hai giai đo n. Giai đo n th nh t tìm và yêu C c u ngư i dùng s a l i ti ng (nh ng ti ng không t n t i trong ti ng Vi t). Giai đo n này ch y u s a nh ng l i sai do nh p li u t bàn phím. Giai đo n A hai đư c dùng đ b t l i t . T t c các cách tách t có th có c a câu nh p O vào đư c xây d ng d a trên lư i t . Sau đó lư i t này đư c m r ng đ thêm vào nh ng câu m i nh áp d ng các nguyên nhân gây l i chính t , nh m t o H ra câu đúng t câu sai chính t . Mô hình ngôn ng đư c áp d ng đ đánh giá K t ng cách tách t trong lư i t và ch n ra cách tách t t t nh t. D a vào cách tách t này và câu g c, ta s xác đ nh t sai chính t và đưa ra t đ ngh . M t s heuristic đư c áp d ng đ hi u ch nh lư i t nh m t o ra m t k t qu 8
  11. DANH SÁCH B NG DANH SÁCH B NG t t hơn. Mô hình ngôn ng đư c dùng là trigram d a trên t . Vi c hu n luy n trigram d a trên ng li u đã tách t s n có và t o thêm ng li u m i t ng li u thô chưa tách t . V i ng li u thô, mô hình ngôn ng đư c hu n luy n TN đ thu th p t t c cách tách t có th có c a m i câu trong ng li u hu n luy n thay vì s d ng b tách t r i hu n luy n trên cách tách t t t nh t đó. Các trigram trong m i cách tách t đư c thu th p d a theo kh năng c a m i H cách tách t . Trigram c a cách tách t t t hơn s có tr ng s cao hơn các K cách tách t còn l i H K t qu Chương trình ho t đ ng t t và đ t đư c m t s k t qu nh t đ nh. Các l i sai âm ti t đư c phát hi n hoàn toàn. L i sai t có th phát hi n đ n Đ trên 88%. Các lo i l i khác đ t đ chính xác r t cao. – Chương trình có th đư c c i ti n thêm b ng cách s d ng các thông tin cao c p hơn như thông tin t lo i, thông tin cú pháp, ng nghĩa . . . nh m TT nâng cao đ chính xác hơn n a. N C A O H K 9
  12. TN Chương 1 H M đ u K H M cl c Đ V n đ nghiên c u . . . . . . . . . . . . . . . . . 8 – Cách ti p c n . . . . . . . . . . . . . . . . . . . . 8 K t qu . . . . . . . . . . . . . . . . . . . . . . . 9 TT Ngôn ng là m t ph n quan tr ng c a đ i s ng, là phương ti n chuy n N t i thông tin trong đ i s ng. Trong th i đ i bùng n thông tin hi n nay thì C ngôn ng đóng vai trò h t s c quan tr ng, đ c bi t là ngôn ng vi t. Khi vi t, đôi khi ta m c ph i nh ng l i sai chính t . Ch qu c ng là th A ch ghi âm nên m t s âm ti t r t d nh m l n, khó phân bi t rõ ràng. Ngôn ng nói nh ng vùng khác nhau l i có nh ng đi m khác nhau. Nh ng đi m O khác nhau này r t d gây ra nh ng l i chính t khi vi t n u ngư i vi t không H đ ý khi s d ng ti ng Vi t. Nh ng thao tác chuy n thông tin d ng khác thành văn b n cũng có th K gây ra l i chính t . Ví d , n u nh p li u không c n th n d n đ n l i sai chính t . Khi ghi l i l i nói c a ngư i khác mà ngư i đó s d ng gi ng đ a phương cũng có th d n đ n l i chính t . Quét các văn b n gi y thành văn b n đi n 10
  13. CHƯƠNG 1. M Đ U 1.1. N I DUNG BÀI TOÁN t , s d ng chương trình nh n d ng ch , cũng có th d n đ n l i chính t do chương trình nh n d ng nh m l n . . . Văn b n d b sai chính t do nhi u y u t khách quan. Đ ki m l i chính t nh ng văn b n này đòi h i nhi u công s c và th i gian, đ c bi t khi kh i TN lư ng văn b n bùng n như hi n nay. Do đó c n có m t công c h tr ki m l i chính t , giúp nhanh chóng phát hi n l i chính t và đ ngh cách kh c ph c. H Trong th i đ i tin h c hoá, máy tính đư c t n d ng đ gi m thi u công K s c c a con ngư i, đ ng th i tăng tính hi u qu . Tin h c đã đư c áp d ng trong nhi u lĩnh v c khác nhau và ch ng t tính hi u qu c a nó. Tuy nhiên, H vi c ng d ng tin h c nh m h tr b t l i chính t ti ng Vi t ch m i đư c b t đ u trong th i gian g n đây. Nh ng ng d ng b t l i chính t hi n có Đ v n còn khá đơn gi n, ho c chưa hi u qu , chưa đáp ng đư c nhu c u th c – t . Lu n văn này đ ra m t gi i pháp khác đ b t l i chính t , v i hy v ng góp ph n nâng cao ch t lư ng ng d ng b t l i chính t ti ng Vi t b ng máy TT tính. N 1.1 N i dung bài toán C Bài toán có th đư c phát bi u như sau: Cho m t văn b n ti ng Vi t. Tìm t t A c các t sai chính t trong văn b n và đ ngh cách gi i quy t l i n u có. Do ngôn ng là m t lĩnh v c quá r ng. Vi c b t l i chính t ti ng Vi t O t ng quát là c c kỳ khó khăn. Do v y đ tài này ch gi i h n b t l i chính t H trong các văn b n hành chính. K Ch s d ng t đi n t , t đi n ti ng và ng li u thô làm đ u vào. Khái ni m t đây là “t t đi n” — t c là các t đơn, t ghép, c m t đư c lưu trong t đi n. L i chính t đây bao g m ch y u hai lo i l i sau: 11
  14. CHƯƠNG 1. M Đ U 1.2. Đ C ĐI M • L i nh p li u sai: l i gõ thi u ch , gõ dư ch , gõ nh m v trí hai ch liên ti p nhau, gõ nh m m t ch b ng m t ch khác, sai sót do b gõ ti ng Vi t . . . • L i phát âm sai: ch y u là do đ c đi m phát âm c a t ng vùng, d n TN đ n sai chính t khi vi t. Không x lý l i t v ng, l i cú pháp. H Gi đ nh r ng, n u t b sai chính t , thì ch sai b i m t trong nh ng lý K do nêu trên m t l n (m i t ch sai m t l i chính t , l i đó thu c m t trong nh ng lo i đã nêu). Nghĩa là không xét nh ng trư ng h p sai chính t , v a H gõ nh m ch này b ng ch khác, v a gõ dư ch . Gi đ nh ngư i dùng ch s d ng m t trong hai cách gõ ti ng Vi t là VNI Đ ho c TELEX. – Văn b n ti ng Vi t đư c coi là thu n Vi t. Không ki m tra chính t đ i v i nh ng t nư c ngoài. Nh ng t nư c ngoài và các ký hi u khác đ u b TT coi là sai chính t . N 1.2 Đ c đi m C B t l i chính t , xét t quan đi m tin h c, là m t bài toán khó. Khó b i vì A ngôn ng là m t ph n r t quan tr ng c a đ i s ng xã h i, nó bao hàm r t O nhi u khía c nh c a văn hoá, xã h i. Ngôn ng dùng đ di n đ t suy nghĩ, chuy n t i thông tin, nên nó ch a đ ng m t kh i lư ng tri th c đ s . Đ x H lý ngôn ng t nhiên m t cách đúng đ n đòi h i m t trình đ nh t đ nh. B i K v y, vi c gi i quy t bài toán b t l i chính t b ng máy tính là h t s c khó khăn. B t l i chính t đôi khi đư c m r ng đ phát hi n nh ng l i khác trong văn b n như l i cú pháp, l i t v ng . . . Đi u này cũng d hi u vì ngư i s 12
  15. CHƯƠNG 1. M Đ U 1.2. Đ C ĐI M d ng c n m t chương trình giúp h phát hi n và lo i b t t c các l i trong văn b n, không quan tr ng l i đó thu c lo i l i nào. Thông thư ng nh ng l i t v ng thư ng b nh m l n v i l i chính t , bu c chương trình b t l i chính t ph i phát hi n c l i t v ng. Đây là m t v n đ khó vì đ b t l i t v ng, TN đôi khi c n ph i hi u n i dung c văn b n. N u tìm hi u sâu hơn v bài toán này, ta l i g p m t khó khăn khác do b n ch t c a ti ng Vi t. Đ i v i ti ng Vi t, cũng như m t s ngôn ng châu H Á khác, m t t chính t có th không tương ng v i m t “t ” trên văn b n. K Đ i v i các th ti ng châu Âu, ta có th d dàng nh n ra m t t , do các t đư c phân cách b ng kho ng tr ng. Đi u đó không đúng v i ti ng Vi t. H Trong ti ng Vi t, các ti ng đư c phân cách b i kho ng tr ng, không ph i các t . Đi u này d n đ n m t bài toán m i: tách t trong ti ng Vi t. Do ti ng Đ Vi t là ngôn ng nói sao vi t v y, nên r t ít khi g p l i sai v ti ng. Đa s – các l i chính t là l i sai t , nên vi c xác đ nh đâu là t c c kỳ quan tr ng. V n đ càng tr nên khó khăn hơn khi ph i th c hi n cùng lúc hai bài TT toán là tách t ti ng Vi t và ki m tra chính t . Th t s là tách t ti ng Vi t trư c, sau đó b t l i chính t . Tuy nhiên, do khi tách t thư ng ng m đ nh N là d li u đúng chính xác. Nên khi ph i tách t trư c bư c ki m tra chính t , ng m đ nh trên không còn đúng. Bài toán tách t tr thành m t bài toán C khác, ph c t p hơn. A Đ tài này ch s d ng các cách hình thành l i chính t , t đi n t ti ng Vi t và ng li u văn b n d ng thô. Vi c không th áp d ng đư c nh ng O thông tin c p cao hơn như t lo i, cú pháp, ng nghĩa . . . s làm chương H trình không th phát huy t i đa kh năng. K 13
  16. CHƯƠNG 1. M Đ U 1.3. HƯ NG GI I QUY T 1.3 Hư ng gi i quy t Bài toán b t l i chính t đã đư c tìm hi u t r t lâu. Tuy nhiên đa s đ u t p trung vào các ngôn ng ph d ng châu Âu. Trong khi đó các ngôn ng TN châu Á, đ c bi t là ti ng Vi t, có nh ng đ c trưng riêng, đ t ra nhi u thách th c m i. Bài toán b t l i chính t trên các ngôn ng châu Á như ti ng Trung Qu c, ti ng Hàn Qu c, ti ng Nh t, ti ng Thái và ti ng Vi t ch b t đ u đư c H nghiên c u g n đây. K Đ i v i các ngôn ng châu Âu, cách gi i quy t đơn gi n là d a vào t đi n. N u m t t trên văn b n không có trong t đi n nghĩa là t đó sai chính H t . Đ i v i các ngôn ng như ti ng Trung Qu c, ti ng Nh t . . . , nhi u gi i Đ pháp đư c đ ra đ gi i quy t bài toán. Tuy nhiên h u h t các gi i pháp đ u d a trên ý tư ng áp d ng t p nh m l n đ phát sinh các t g n đúng, sau đó – s d ng mô hình ngôn ng đ đ nh lư ng, xác đ nh xem t nào là đúng nh t. TT Đ tài này áp d ng cách gi i quy t truy n th ng, so sánh t d a trên t đi n. N u t không có trong t đi n nghĩa là sai chính t , t đó đưa ra nh ng N g i ý thích h p. Bài toán đ t ra m t bài toán con khác là tách t ti ng Vi t trong đi u C ki n văn b n b sai chính t . Cách gi i quy t bài toán này là phát sinh m i cách tách t có th , s d ng t p nh m l n, và sau đó áp d ng mô hình ngôn A ng đ tìm ra cách tách t đúng nh t. T p nh m l n đư c phát sinh d a vào O ngu n g c gây l i. Các l i v phát âm s d a trên các thói quen phát âm c a H t ng vùng đ t o t p nh m l n. Các l i v nh p li u s d a trên các nghiên c u v l i nh p li u đ đưa ra t p nh m l n tương ng. K 14
  17. CHƯƠNG 1. M Đ U 1.4. B C C LU N VĂN 1.4 B c c lu n văn Lu n văn đư c chia thành các chương sau: • Chương 1 gi i thi u chung v lu n văn, các v n đ c n gi i quy t, đ c TN đi m, ph m vi c a bài toán và hư ng gi i quy t. • Chương 2 trình bày cơ s lý thuy t ngôn ng h c. H • Chương 3 trình bày cơ s lý thuy t toán h c/tin h c. Các mô hình đư c K áp d ng đ gi i quy t bài toán. H • Chương 4 trình bày mô hình đ ngh cho b t l i chính t ti ng Vi t. Đ • Chương 5 trình bày các chi ti t khi cài đ t chương trình. – • Chương 6 tóm t t lu n văn, các k t qu đ t đư c, tìm hi u các đ c TT đi m c a mô hình cũng như chương trình cài đ t, các h n ch và các hư ng gi i quy t trong tương lai. N • Ph n ph l c trình bày các thông tin liên quan. C A O H K 15
  18. TN Chương 2 H Cơ s lý thuy t ngôn ng K M cl c H Đ 1.1 N i dung bài toán . . . . . . . . . . . . . . . . . . . . . . . . . 11 – 1.2 Đ c đi m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 TT 1.3 Hư ng gi i quy t . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.4 B c c lu n văn . . . . . . . . . . . . . . . . . . . . . . . . . . 15 N C 2.1 Âm ti t A Ngôn ng là m t h th ng tín hi u. Khi nói, v v t ch t c a tín hi u là âm O thanh, khi vi t nó đư c th hi n b ng ch . Không ph i ch vi t lúc nào cũng H ph n ánh chính xác các âm t tương ng. Vì v y, các âm t đư c bi u di n b ng nh ng ký hi u đ c bi t, g i là phiên âm. Các ký hi u phiên âm thư ng K đ t gi a / / ho c [ ]. Âm thanh trong t nhiên đư c t o thành nh s rung đ ng c a m t v t th đàn h i. Âm thanh c a ti ng nói đư c hình thành nh “b máy phát âm” 16
  19. CHƯƠNG 2. CƠ S LÝ THUY T NGÔN NG 2.1. ÂM TI T c a con ngư i — bao g m môi, răng, lư i, khoang mi ng, khoang mũi, y t h u, thanh h u, ph i . . . . Ngoài ra, tai ngư i ch có th ti p nh n m t kho ng âm thanh nh t đ nh. Nh ng ch n đ ng không nghe đư c g i là siêu âm và âm ngo i. TN Âm h c phân bi t các âm thanh theo nh ng đ c trưng khác nhau, bao g m: đ cao, đ m nh, đ dài. Đ cao ph thu c vào t n s dao đ ng. T n s dao đ ng càng l n thì âm thanh càng cao. Tai ngư i có kh năng nh n bi t H đ cao trong kho ng t 16 đ n 20.000 Hz . Đ m nh (cư ng đ ) ph thu c K vào biên đ dao đ ng. Biên đ càng l n, âm thanh càng to. Cư ng đ âm thanh trong ngôn ng đ m b o s xác minh trong giao t và là cơ s đ t o H thành các ki u tr ng âm khác nhau. Đ dài (trư ng đ ) là kho ng th i gian kéo dài c a âm thanh. Ngôn ng ch quan tr ng th i gian tương đ i c a âm Đ thanh. Ví d , các nguyên âm có tr ng âm thư ng dài hơn nguyên âm không – có tr ng âm. TT 2.1.1 Nguyên âm và ph âm Các âm t có th chia thành nguyên âm và ph âm, d a vào các đ c đi m N âm h c, c u âm và vai trò trong c u t o âm ti t. C Nguyên âm có đ c đi m c u t o: A • Lu ng hơi ra t do, không b c n tr , không có v trí c u âm. O • B máy phát âm căng th ng toàn b . H • Lu ng hơi ra y u. K Ph âm có đ c đi m c u t o hoàn toàn trái ngư c v i nguyên âm: • Lu ng hơi b c n tr do s xu t hi n chư ng ng i trên l i ra c a lu ng không khí, chư ng ng i thư ng xu t hi n các khoang trên thanh h u 17
  20. CHƯƠNG 2. CƠ S LÝ THUY T NGÔN NG 2.1. ÂM TI T do các khí quan ti p xúc nhau hay nhích g n nhau mà thành, đi m có chư ng ng i đư c g i là v trí c u âm c a ph âm. • B máy phát âm không căng th ng toàn b mà s căng th ng cơ th t t p trung v trí c u âm. TN • Lu ng hơi ra m nh. H Nguyên âm và ph âm có ch c năng khác nhau trong c u t o âm ti t. Các nguyên âm thư ng làm h t nhân hay đ nh c a âm ti t, còn ph âm thư ng là K y u t đi kèm, không t o thành âm ti t (tr các âm ph vang). Nh ng âm t có đ c tính gi ng nguyên âm nhưng thư ng ch đi kèm, b n H thân không t o thành âm ti t đư c g i là bán nguyên âm. Ví d , các âm t Đ vi t là u, i trong các âm “sau”, “mai” trong ti ng Vi t. – 2.1.2 Âm v TT Âm v là đơn v nh nh t c a cơ c u âm thanh ngôn ng , dùng đ c u t o và phân bi t hình th c ng âm c a nh ng đơn v có nghĩa c a ngôn ng — t N và hình v . Ví d , các t “tôi” và “đôi”, “ta” và “đa” đư c phân bi t b i các C âm v /t/ và /d/. Âm v là đơn v nh nh t, vì v m t tuy n tính nó không th phân chia A nh hơn n a. N u thay âm v này b ng âm v khác trong cùng m t b i c nh O ng âm s làm cho t thay đ i nghĩa ho c m t nghĩa. Ví d , thay âm /t/ trong t “toàn” b ng âm /h/ s đư c “hoàn” có nghĩa khác, ho c n u thay H b ng âm /n/ s đư c “noàn” hoàn toàn vô nghĩa. K Âm v có th đư c so sánh như nh ng viên g ch trong vi c xây d ng m i ngôn ng . Các viên g ch thư ng gi ng nhau, nhưng các âm v v nguyên t c ph i khác nhau, ít nh t m t đ c trưng nào đó. S khác bi t này t o ra khác bi t v hình th c âm thanh c a hình v và t , t o ra tín hi u khác bi t đ i v i 18

CÓ THỂ BẠN MUỐN DOWNLOAD

Đồng bộ tài khoản