Luận văn thạc sĩ: Tìm hiểu hiện tượng nhập nhằng trong tiếng Việt và khả năng khắc phục trong soạn thảo văn bản
lượt xem 12
download
Tìm hiểu hiện tượng nhập nhằng trong tiếng Việt và khả năng khắc phục trong soạn thảo văn bản nghiên cứu về xử lý ngôn ngữ tự nhiên, xử lý tiếng Việt.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Luận văn thạc sĩ: Tìm hiểu hiện tượng nhập nhằng trong tiếng Việt và khả năng khắc phục trong soạn thảo văn bản
- -1- B GIÁO D C VÀ ĐÀO T O Đ I H C ĐÀ N NG ĐINH TH M H NH TÌM HI U HI N TƯ NG NH P NH NG TRONG TI NG VI T VÀ KH NĂNG KH C PH C TRONG SO N TH O VĂN B N Chuyên ngành : KHOA H C MÁY TÍNH Mã s : 60.48.01 TÓM T T LU N VĂN TH C SĨ K THU T Đà N ng - Năm 2011
- -2- Công trình ñư c hoàn thành t i Đ I H C ĐÀ N NG Ngư i hư ng d n khoa h c: PGS.TS. PHAN HUY KHÁNH Ph n bi n 1: PGS.TS. Võ Trung Hùng Ph n bi n 2: TS. Trương Công Tu n Lu n văn ñư c b o v trư c H i ñ ng ch m Lu n văn t t nghi p th c sĩ k thu t h p t i Đ i h c Đà N ng vào ngày 19 tháng 6 năm 2011. * Có th tìm hi u lu n văn t i: - Trung tâm Thông tin - H c li u, Đ i h c Đà N ng - Trung tâm H c li u, Đ i h c Đà N ng.
- -3- M Đ U 1. Lý do ch n ñ tài Trong h th ng ngôn ng trên th gi i hi n nay, ti ng Vi t ñư c xem là m t trong nh ng ngôn ng có s phong phú và ña d ng. Chính s phong phú và ph c t p c a ti ng Vi t ñã d n ñ n nh ng khó khăn cho c ngư i s d ng theo cách thông thư ng và khi x lý trên máy tính. Do nh ng nh hư ng c a l ch s hình thành và phát tri n, ti ng Vi t có tính lai t p v m t ngôn ng г t cao, ñ c bi t nh hư ng t ti ng Hán và ti ng Pháp. S ña nghĩa trong ti ng Vi t cũng chính là m t ñ c ñi m n i b t. Ngoài ra, do thói quen s d ng c a m i ngư i ho c m i vùng mi n, ti ng Vi t l i có nh ng s bi n ñ i nh t ñ nh, th m chí s thi u nh t quán trong cách nói, cách vi t. Ti ng Vi t ngày nay còn b nh hư ng b i thói quen s d ng ngôn ng trên Internet ho c các thi t b truy n thông hi n ñ i như ñi n tho i di ñ ng, ñi u này làm xu t hi n thêm nhi u t m i ñư c ngư i dùng Internet ho c ñi n tho i di ñ ng ch p nh n, ñ c bi t gi i tr như câu “Bu i sinh nh t hôm nay vui wá!”. S nh p nh ng trong khi nói, vi t ho c di n ñ t ý nghĩ ñã d n ñ n nh ng s hi u l m nhi u m c ñ khác nhau. Và cũng chính nh ng ñ c ñi m nói trên ñã làm cho ti ng Vi t v n ñã ph c t p l i càng ph c t p hơn, ñ c bi t là m t s y u t ñã làm m t ñi tính trong sáng và giá tr t t ñ p v n có c a ti ng Vi t. Gìn gi s trong sáng c a ti ng Vi t là m t yêu c u và nhi m v quan tr ng, c n thi t c a c gi i phê bình, nghiên c u văn hóa, ngôn ng l n nh ng ngư i s d ng thông thư ng. Xu t phát t nh ng phân tích và quan sát trên, nhi m v nghiên c u c a ñ tài “Tìm hi u hi n tư ng nh p nh ng trong
- -4- ti ng Vi t và kh năng kh c ph c trong so n th o văn b n” là tìm hi u v nh ng v n ñ cơ b n trong x lý ngôn ng , x lý ti ng Vi t, ñ c bi t là v n ñ “nh p nh ng” trong ti ng Vi t, t ñó ñ xu t m t gi i pháp ñ kh c ph c trong quá trình so n th o văn b n cho m t s trư ng h p c th c a hi n tư ng nh p nh ng. 2. M c tiêu c a ñ tài Đ tài t p trung nghiên c u v x lý ngôn ng t nhiên, x lý ti ng Vi t. Tác gi cũng b nhi u th i gian nghiên c u v các hi n tư ng nh p nh ng thư ng x y ra trong ti ng Vi t. Đ tài còn nghiên c u các kh năng x lý nh p nh ng và xây d ng ng d ng h tr x lý nh p nh ng ti ng Vi t trong m t ph m vi h p. 3. Ph m vi và gi i h n c a ñ tài V n ñ nh p nh ng trong ti ng Vi t có r t nhi u trư ng h p, tuy nhiên trong ph m vi c a ñ tài này tác gi gi i h n l i m t s n i dung sau ñây: V m t lý thuy t: Tìm hi u lý thuy t v XLNN và XLTV, l ch s hình thành và phát tri n c a ti ng Vi t; Tìm hi u lý thuy t v các v n ñ liên quan ñ n hi n tư ng nh p nh ng trong ti ng Vi t; Tìm hi u nh ng v n ñ cơ b n v so n th o văn b n, ph n m m so n th o văn b n; Đ xu t gi i pháp ñ gi i quy t HTNN do vi t sai l i chính t ti ng Vi t (gi i h n nh ng l i chính t c p ñ âm ti t) và HTNN do xác ñ nh sai ph m vi, ranh gi i c a t ti ng Vi t. V m t chương trình: Xây d ng ng d ng h tr x lý nh p nh ng gây ra do l i chính t v m t âm ti t, ñ ng th i chương trình h tr vi c tách văn b n thành các t ñ c l p ñ ngư i s d ng d dàng hi u n i dung văn b n. K t qu c a vi c tách t s ñư c s d ng ph c v cho vi c phát tri n ng d ng, gi i quy t v n ñ phân tích nh p nh ng v phân lo i t và cú pháp câu.
- -5- 4. Phương pháp nghiên c u Thu th p, tìm hi u, phân tích các tài li u và thông tin có liên quan ñ n ñ tài; Phân tích và thi t k h th ng chương trình; Tri n khai xây d ng chương trình; Ki m th , nh n xét và ñánh giá k t qu . 5. Ý nghĩa khoa h c và th c ti n c a ñ tài Ý nghĩa khoa h c: Hi u ñư c nh ng v n ñ cơ b n trong x lý ti ng Vi t, x lý nh p nh ng trong ti ng Vi t; Đ xu t ñư c gi i pháp ñ h tr x lý m t s hi n tư ng nh p nh ng trong so n th o văn b n ti ng Vi t. Ý nghĩa th c ti n: Hi u và ng d ng ñư c nh ng ki n th c n n t ng trong x lý ti ng Vi t ñ x lý nh p nh ng trong ti ng Vi t; Có th ng d ng chương trình này ñ h tr x lý nh p nh ng trong so n th o văn b n ti ng Vi t; Có ý nghĩa trong vi c b o t n và phát huy các giá tr c a ti ng Vi t. 6. B c c lu n văn M ñ u Chương 1: Cơ s lý thuy t v x lý ngôn ng t nhiên Chương 2: So n th o văn b n và hi n tư ng nh p nh ng trong so n th o văn b n Chương 3: Đ xu t gi i pháp kh c ph c nh p nh ng K t lu n.
- -6- CHƯƠNG 1: CƠ S LÝ THUY T V X LÝ NGÔN NG T NHIÊN 1.1. X LÝ NGÔN NG T NHIÊN 1.1.1. Khái ni m 1.1.2. Các bư c x lý 1.1.3. Các bài toán và ng d ng 1.2. TÌM HI U V TI NG VI T VÀ V N Đ X LÝ TI NG VI T 1.2.1. S hình thành c a ti ng Vi t 1.2.2. Đ c ñi m c a ti ng Vi t 1.2.2.1. Đ c ñi m ng âm 1.2.2.2. Đ c ñi m t v ng 1.2.2.3. Đ c ñi m ng pháp 1.2.3. T trong ti ng Vi t 1.2.3.1. Khái ni m T là ñơn v nh nh t có nghĩa, có k t c u v ng âm b n v ng, hoàn ch nh, có ch c năng g i tên, ñư c v n d ng ñ c l p, tái hi n t do trong l i nói ñ t o câu[7]. 1.2.3.2. Đơn v c u t o Đơn v cơ s ñ c u t o t ti ng Vi t là các ti ng, cái mà ng âm h c v n g i là các âm ti t. 1.2.3.3. Phương th c c u t o 1.2.4. Bi n th c a t 1.3. HI N TƯ NG NH P NH NG TRONG X LÝ VĂN B N TI NG VI T 1.3.1. Khái ni m Nh p nh ng là hi n tư ng mà khi nói, vi t ho c di n t nh ng t ng , ý nghĩ mơ h , không rõ nghĩa ho c có nhi u nghĩa làm cho
- -7- ngư i ñ c ho c ngư i nghe không phân bi t rõ ràng, gây ra s hi u l m. Khái ni m nh p nh ng cũng có th hi u theo m t cách khác như sau: trong m i lĩnh v c, các v n ñ thư ng ñư c ñ c p, trình bày ho c ñư c hi u theo m t chu n nh t ñ nh, chu n này có th ñư c quy ư c b ng văn b n ho c quy ư c ng m ñ nh. Khi ñó t t c nh ng cách hi u, cách ñ c p ho c trình bày v n ñ n m ngoài ph m vi chu n ñó ñư c xem là nh p nh ng. 1.3.2. M t s hi n tư ng nh p nh ng 1.3.2.1. Hi n tư ng nh p nh ng do vi t sai chính t ti ng Vi t Vi c vi t sai l i chính t ti ng Vi t ñang m c ñáng báo ñ ng, hi n tư ng này không nh ng di n ra ph bi n trong gi i tr , ñ c bi t trong gi i tr s d ng internet mà còn xu t hi n nhi u trên các phương ti n thông tin ñ i chúng và các văn b n c a Nhà nư c. Chính nh ng sai sót v chính t này có th gây ra nh ng nh p nh ng trong vi c ti p nh p thông tin. Trong c ng ñ ng s d ng m ng Internet cũng hình thành m t l p t m i chưa có trong t ñi n ti ng Vi t, ñi u này cũng d n ñ n nh ng thói quen s d ng t ng không t t trong ngư i s d ng, ñ c bi t gi i tr . Có nh ng trư ng h p sai chính t có th d n ñ n nh ng h qu x u như hình thành thói quen nói sai, vi t sai và hi u sai v n ñ . 1.3.2.2. Hi n tư ng nh p nh ng v ph m vi, ranh gi i gi a các t Trong m t s ngôn ng như ti ng Anh, vi c xác ñ nh ranh gi i, ph m vi gi a các t khá d dàng, m i t riêng l ñã mang tr n v n m t nghĩa và ranh gi i c a chúng ñư c xác ñ nh thông qua
- -8- kho ng tr ng. Ti ng Vi t thì khác, do là ngôn ng ñơn l p nên t v ng ch y u là các t ghép vì th kho ng tr ng không ph i luôn luôn là ranh gi i chính xác. Trong ti ng Vi t, vi c xác ñ nh chính xác ph m vi, ranh gi i gi a các t có th h tr r t nhi u cho quá trình kh nh p nh ng, ñ c bi t ñ i v i ngôn ng vi t. Đây cũng chính là m c ñích chính mà báo cáo này mu n ñ c p ñ n. 1.3.2.3. Hi n tư ng nh p nh ng do tính ña nghĩa c a t B t c ngôn ng nào cũng có t ña nghĩa, nguyên nhân là vì r t nhi u khái ni m có các s c thái ý nghĩa tuy không hoàn toàn trùng kh p nhau nhưng l i có nhi u nét tương ñ ng. Hi n tư ng này gây c n tr cho vi c d ch t ñ ng, chương trình không bi t d ch t ña nghĩa theo nghĩa nào trong nhóm nghĩa c a nó. 1.3.2.4. Hi n tư ng nh p nh ng ng nghĩa khi s d ng các t ñ ng âm Hai t ñ ng âm v i nhau nghĩa là hai t có âm gi ng nhau nhưng mang nghĩa khác nhau, còn ñ ng t là hai t v m t ký t là gi ng nhau nhưng nghĩa khác nhau. Do ñ c ñi m c a ti ng Vi t t ñ ng âm cũng thư ng là t ñ ng t , các ngôn ng khác hai hi n tư ng này không trùng kh p nhau. Cũng ph i phân bi t t ñ ng t v i t ña nghĩa, trong t ña nghĩa, các nghĩa ñ u có chung m t ngu n g c và do v y luôn có nét tương ñ ng trong khi ñó trong t ñ ng t chúng không có liên h v ngu n g c v i nhau, nghĩa c a chúng khác nhau rõ r t. Ví d 1 T “ki m” trong hai câu sau ñây là hai t ñ ng t : Anh ta s d ng ki m r t ñiêu luy n. Ki m ăn bây gi khó l m.
- -9- 1.3.2.5. Hi n tư ng nh p nh ng trong cách phân bi t t lo i T lo i là m t y u t quan tr ng trong vi c xác ñ nh nghĩa chính xác c a t và s p x p các t thành câu hoàn ch nh trong d ch t ñ ng. T lo i giúp kh nh p nh ng, nhưng chính b n thân nó trong m t s trư ng h p cũng nh p nh ng. V i các ngôn ng không bi n hình như ti ng Vi t, v n ñ xác ñ nh t lo i yêu c u các thu t toán ph c t p hơn, b t bu c ph i phân tích cú pháp. M t khác, ngay trong n i b ngành ngôn ng v n chưa có s th ng nh t v phân lo i t lo i cho ti ng Vi t. 1.3.2.6. Hi n tư ng nh p nh ng khi s d ng ti ng Vi t không d u Ngày nay, vi c gõ ti ng Vi t không d u tr nên ph bi n hơn, ñ c bi t trên các ng d ng Internet ho c ñi n tho i di ñ ng như email, chat… Gõ ti ng Vi t không d u giúp ngư i s d ng thao tác nhanh hơn, nhưng trong m t s trư ng h p nó l i gây ra nh ng s hi u nh m tai h i ñ i v i ngư i ñ c. 1.3.2.7. Hi n tư ng nh p nh ng v s v n d ng Cùng m t câu nhưng khi s d ng trong các hoàn c nh khác nhau c a ngôn ng nói ho c ngôn ng vi t, n u không bi t cách s d ng m t cách phù h p cũng s gây ra s “nh p nh ng”, s hi u l m cho ngư i ñ c ho c ngư i nghe. Hi n tư ng này ñ c bi t ph bi n trong ti ng Vi t, vì ti ng Vi t v n ña nghĩa, ña s c thái và có tính bi u c m r t cao. Đi u này ñòi h i ngư i s d ng ngôn ng m t s khéo léo và tinh t nh t ñ nh, có s hi u bi t m t m c ñ c n thi t ñ có th t n d ng h t nh ng giá tr bi u ñ t c a ngôn ng .
- - 10 - 1.3.2.8. Hi n tư ng nh p nh ng trong phân tích cú pháp ti ng Vi t Trong phân tích cú pháp ti ng Vi t, hi n tư ng nh p nh ng x y ra nhi u m c, t m c t , t lo i ñ n m c cú pháp câu. Đi u này d n ñ n m t câu có th ñư c phân tích theo nhi u cách khác nhau, trong khi ch có m t vài cách phân tích trong s ñó ñúng. 1.4. K T LU N CHƯƠNG Chương này trình bày khái ni m và các bư c ñ x lý ngôn ng t nhiên, các bài toán liên quan ñ n x lý ngôn ng t nhiên như nh n d ng ti ng nói, t ng h p ti ng nói, d ch t ñ ng, tìm ki m văn b n, tóm t t văn b n… Ngoài ra còn trình bày v s hình thành, phát tri n và m t s ñ c ñi m n i b t c a ti ng Vi t. Chương 1 còn dành m t s lư ng l n các trang ñ trình bày khái ni m cũng như nh ng hi n tư ng nh p nh ng ph bi n nh t trong x lý văn b n ti ng Vi t.
- - 11 - CHƯƠNG 2: SO N TH O VĂN B N VÀ HI N TƯ NG NH P NH NG TRONG SO N TH O VĂN B N 2.1. M TS V N Đ V SO N TH O VĂN B N 2.1.1. Đ t v n ñ 2.1.2. Khái ni m ký t , t , câu, dòng, ño n 2.1.3. Nguyên t c t xu ng dòng c a t 2.1.4. M t s quy t c gõ văn b n cơ b n 2.1.5. Ph n m m so n th o văn b n 2.2. HI N TƯ NG NH P NH NG TRONG SO N TH O VĂN B N Nh ng m c ñ nh p nh ng trong STVB: Trong quá trình so n th o văn b n, hi n tư ng nh p nh ng có th x y ra nhi u m c ñ khác nhau: M c m t, nh p nh ng x y ra do sai sót v t , c m t , sai sót ch vi t t t, cách vi t ngày tháng năm, vi t các ký hi u. M c hai, nh p nh ng m c ñ cú pháp câu. M c ba, nh p nh ng v m t ng nghĩa. 2.3. CÁCH PHÁT HI N HI N TƯ NG NH P NH NG TRONG SO N TH O VĂN B N Th nh t, phát hi n HTNN trư c khi ti n hành STVB. Quá trình này chính là kh nh p nh ng trong tư duy, suy nghĩ c a ngư i so n th o, nói chính xác hơn thì trong trư ng h p này, b n thân ngư i so n th o ph i t tìm cách ñ kh nh p nh ng b ng cách n m v ng các quy t c v chính t ti ng Vi t, quy t c STVB, hi u bi t v ngôn ng ti ng Vi t và bi t cách v n d ng phù h p. N u b n thân ngư i so n th o không th t tìm và kh ñư c nh ng nh p nh ng
- - 12 - trong tư duy, suy nghĩ thì có th trao ñ i v i ngư i khác ñ có cách trình bày v n ñ chính xác hơn. Th hai, phát hi n HTNN trong quá trình STVB. N u ch s d ng ph n m m h tr STVB ti ng Vi t (mà không s d ng kèm m t chương trình h tr tìm và kh nh p nh ng cho văn b n ti ng Vi t nào khác) thì ch có m t cách ñ phát hi n nh p nh ng là ngư i s d ng ph i t làm th công. Tuy nhiên cách làm này s không ñem l i nhi u hi u qu và ñ chính xác không cao. Do ñó nh t thi t ph i có m t chương trình h tr phát hi n và kh nh p nh ng ñi kèm. Th ba, phát hi n HTNN sau khi vi c STVB hoàn t t. Nghĩa là ngư i s d ng s m t p văn b n ñã so n th o, sau ñó g i ch c năng phát hi n nh p nh ng ñ x lý. Theo tìm hi u c a tác gi , hi n nay v n chưa có m t h th ng hay chương trình nào có th x lý ñư c t t c các HTNN trong STVB ti ng Vi t. Các k t qu ñã có cũng ch m i là nh ng gi i pháp cho m t s trư ng h p c th . 2.4. CÁC GI I PHÁP X LÝ NH P NH NG ĐÃ CÓ TRƯ C ĐÂY Trong bài báo “Phân tích cú pháp ti ng Vi t s d ng văn ph m phi ng c nh t v ng hóa k t h p xác xu t” [25], nhóm tác gi ñã nghiên c u bi n pháp x lý hi n tư ng nh p nh ng và các hi n tư ng cú pháp ph thu c t trong phân tích cú pháp ti ng Vi t. Bài báo ñ xu t vi c xây d ng m t công c phân tích cú pháp d a trên văn ph m phi ng c nh v i lu t có ch a thông tin v xác su t và t v ng. Trong tài li u [24], nhóm tác gi ñã trình bày chi ti t các th nghi m v gán nhãn t lo i cho các văn b n ti ng Vi t b ng cách áp d ng b gán nhãn QTAG. Công vi c gán nhãn t lo i cho m t văn
- - 13 - b n là xác ñ nh t lo i c a m i t trong ph m vi văn b n ñó. Khi h th ng văn b n ñã ñư c gán nhãn, hay nói cách khác là ñã ñư c chú thích t lo i thì nó s ñư c ng d ng r ng rãi trong các h th ng tìm ki m thông tin, trong các ng d ng t ng h p ti ng nói, các h th ng nh n d ng ti ng nói cũng như trong các h th ng d ch máy. Đ ti n hành vi c gán nhãn t lo i, nhóm tác gi ñã ti n hành ba bư c: Phân tách xâu ký t thành các t , gán nhãn tiên nghi m, quy t ñ nh k t qu gán nhãn, t c lo i b nh p nh ng. Văn b n ñã ñư c phân ño n t (WORD SEGMENTED TEXT) T p lu t nh n di n POS Mô hình gán nhãn cho t (POS Tagging Model) Kho ng li u ti ng Vi t Văn b n ñã ñư c gán t lo i (POS TAGGED TEXTS) Hình 2.1. Mô hình t ng quát bài toán gán nhãn t lo i 2.5. K T LU N CHƯƠNG Chương 2 trình bày nh ng v n ñ cơ b n v so n th o văn b n, khái ni m v ký t , t , câu, dòng, ño n. Trong chương này còn trình bày khái ni m v hi n tư ng nh p nh ng trong ti ng Vi t. Ngoài ra còn trình bày m t s hi n tư ng nh p nh ng ph bi n trong ti ng Vi t, qua ñó chúng ta có th th y r ng hi n tư ng nh p nh ng khá ph bi n và r t khó ñ x lý m t cách tri t ñ . Ph n cu i chương, tác gi ñã trình bày nh ng k t qu nghiên c u v v n ñ x lý nh p nh ng trong ngôn ng t nhiên nói chung và ti ng Vi t nói riêng.
- - 14 - CHƯƠNG 3: Đ XU T GI I PHÁP KH C PH C NH P NH NG 3.1. GI I THI U VÀ PHÂN TÍCH BÀI TOÁN Trong s các hi n tư ng nh p nh ng mà tác gi ñã ñ c p ñ n trong chương 2, trong ph n này, tác gi ch ch n m t s hi n tư ng nh p nh ng c th ñ ñ xu t gi i pháp kh c ph c. Đó là nh p nh ng do vi t sai l i chính t ti ng Vi t c p ñ âm ti t (vi t nh ng âm ti t không có trong ti ng Vi t) và nh p nh ng do không xác ñ nh ñư c ph m vi, ranh gi i gi a các t trong văn b n. N u xem nh ng quy t c v chính t ti ng Vi t là mi n chu n, và nh ng gì n m trong mi n chu n y ñư c ch p nh n và không gây nh p nh ng thì nh ng trư ng h p vi t sai chính t ti ng Vi t n m ngoài mi n chu n (t c vi t sai chính t ) ñ u ñư c xem là nh p nh ng. Trong ph m vi báo cáo này, tác gi x lý m t ph n các l i chính t ti ng Vi t có th m c ph i d n ñ n hi n tư ng nh p nh ng, ñó là x lý l i chính t m c âm ti t ti ng Vi t. Ví d có th phát hi n ra l i chính t c a t và ñưa ra m t lo t g i ý ñ ngư i s d ng ch nh s a l i. Xét m t ví d v hi n tư ng nh p nh ng do không xác ñ nh ñư c ph m vi, ranh gi i gi a các t . Ví d 32 Ngư i dân thu c ñ a bàn ñô th có m c thu nh p bình quân ñ u ngư i cao hơn vùng nông thôn. Trong ví d 32, m t s ñ i tư ng, ví d tr em có th s xác ñ nh không ñúng ph m vi gi a các t s d n ñ n hi u sai (nh p nh ng) n i dung câu. C m t thu c ñ a bàn s có hai cách phân tách,
- - 15 - th nh t là thu c/ ñ a bàn (nghĩa là n m trên ñ a bàn nào ñó), th hai là thu c ñ a/ bàn (nghĩa là ngư i dân thu c ñ a bàn b c v ñi u gì ñó, ñây là cách phân tách sai trong ng c nh trên). Trong ti ng Vi t t n t i khá nhi u nh ng c m t tương t như trên. Do ñó, khi xác ñ nh ñúng ph m vi t s ñ c ñúng và hi u ñúng, nghĩa là tránh ñư c nh p nh ng. Gi i quy t ñư c bài toán v xác ñ nh ph m vi, ranh gi i t s là cơ s quan tr ng ñ th c hi n gán nhãn t lo i cho t , phân tích cú pháp câu ti ng Vi t. Gi i quy t bài toán: Bài toán bây gi ñư c chia làm hai bư c x lý: - X lý l i chính t ti ng Vi t m c âm ti t - Phân tách văn b n thành các t ñ c l p Kho d li u âm ti t T ñi n ti ng Vi t ti ng Vi t Văn b n X lý l i chính t Tách văn b n thành Văn b n c n x lý TV m c âm ti t các t riêng bi t ñã ñư c x lý nh p nh ng (*) Đ U VÀO QUÁ TRÌNH X LÝ Đ U RA Giao di n ngư i s d ng Ngư i s d ng Hình 3.1. Mô hình ki n trúc t ng quan c a quá trình x lý Gi i h n ph m vi gi i quy t c a bài toán: Khái ni m văn b n ñư c ñ c p ñ n trong báo cáo này là văn b n ch ch a ch , không ch a hình v .
- - 16 - Chương trình cũng chưa x lý các ñ nh d ng c a văn b n ñ u vào. Th i ñi m x lý văn b n: Chương trình ñư c tích h p trong ng d ng Microsoft Word và chương trình s l y n i dung văn b n ñư c so n th o s n ñ x lý. Ngư i s d ng có th tùy ch n ti n hành ki m l i chính t m c âm ti t ñ i văn b n ñ u vào, sau ñó ti n hành phân tách t . Chương trình không ñư c g i th c thi m t cách t ñ ng mà c n có thao tác c a ngư i s d ng. Lo i nh p nh ng ñư c x lý: bài toán gi i quy t s nh p nh ng gây ra do sai sót v l i chính t ti ng Vi t m c âm ti t và h tr x lý nh p nh ng có th có do không xác ñ nh ñư c ph m vi, ranh gi i gi a các t trong ti ng Vi t. Kho d li u ti ng Vi t: Chương trình dùng 2 kho d li u h tr cho quá trình x lý: Kho d li u âm ti t ti ng Vi t: lưu hơn 10.000 âm ti t ti ng Vi t, h tr cho ch c năng tìm và s a l i, ñ ng th i có th ñư c c p nh p thêm t m i thông qua bư c x lý l i chính t . Các âm ti t ñư c lưu b ng mã Unicode. T ñi n ti ng Vi t h tr ch c năng tách t g m g n 24.000 t ti ng Vi t. Ngoài ra, ñ h tr t t hơn cho vi c tách t , tác gi còn b sung vào kho d li u t ti ng Vi t m t s danh t riêng ph bi n. 3.2. THI T K CƠ S D LI U VÀ CÁC THU T TOÁN CHÍNH 3.2.1. Thi t k cơ s d li u Cơ s d li u cho bài toán tương ñ i ñơn gi n, d li u ñư c chia thành 2 ph n riêng bi t, m t ph n ph c v cho ch c năng ki m l i chính t ti ng Vi t m c âm ti t, m t ph n ph c v cho ch c năng tách t trong văn b n.
- - 17 - 3.2.1.1. D li u cho ch c năng ki m l i chính t ti ng Vi t m c âm ti t D li u cho ch c năng x lý nh p nh ng do sai l i chính t ti ng Vi t m c âm ti t g m 1 b ng AmTiet (Âm ti t) ch a t t c các âm ti t có trong ti ng Vi t. AM_TIET STT Am_Tiet Hình 3.4 D li u lưu các âm ti t ti ng Vi t B ng 3.1. B ng t ñi n d li u Tên trư ng Ki u d li u Kích thư c Gi i thích STT Autonumber Integer Th t c a m c t Am_Tiet Text 10 Âm ti t ti ng Vi t 3.2.1.2. D li u cho ch c năng tách t trong văn b n Đ ph c v cho gi i thu t này, ta c n xây d ng cơ s d li u ch a t t c các t có trong ti ng Vi t. Tác gi xây d ng kho d li u này trên cơ s t p tin d li u c a ph n m m VietDict c a tác gi H Ng c Đ c, t i mi n phí t i ñ a ch http://vietdict.viet.net. T p tin này ñư c lưu v i ñuôi *.txt, ch a g n 24.000 t và gi i thích t (Vi t – Vi t), c u trúc trình bày g n gi ng các quy n t ñi n ti ng Vi t. Tác gi ñã vi t m t th t c ñơn gi n ñ ti n hành tìm và tách l y t t c các t ti ng Vi t trong t p tin ñ lưu vào cơ s d li u. Đây chưa ph i là t t c các t có trong ti ng Vi t, ch là d li u ñ demo chương trình. D li u c a ch c năng tách t là 1 b ng d li u ch a các t có trong ti ng Vi t (căn c vào t ñi n ti ng Vi t), g m 3 trư ng d li u
- - 18 - là s th t , m c t Word và kích thư c c a t Length. Ví d t ban mai có Length =2, t s ch sành sanh có Length =3. Trư ng Length dùng ph c v cho m t s gi i thu t c a chương trình. TuTV stt Word Lenght Hình 3.5 D li u ch a các t ti ng Vi t M i b ng ñ u có 2 trư ng d li u: B ng 3.2. T ñi n d li u Tên trư ng Ki u d li u Kích thư c Gi i thích stt Autonumber Integer Th t m c t Word Text 30 T ti ng Vi t Length Number Byte Kích thư c t B ng d li u này ch có m c ñích là lưu tr d li u. D li u ñư c lưu b ng mã Unicode, ki u gõ Telex ñ th ng nh t v i d li u c a ph n ki m l i chính t ti ng Vi t ñã trình bày ph n trên c a báo cáo. 3.2.2. Các gi i thu t chính 3.2.2.1. Gi i thu t tìm và h tr s a l i chính t ti ng Vi t m c âm ti t 3.2.2.2. Thu t toán xác ñ nh t trong văn b n 3.2.2.3. Thu t toán tách ño n văn b n thành các t riêng bi t Đây là ch c năng chính c a chương trình. Trư c khi trình bày gi i thu t tách t c a mình, tác gi xin trình bày sơ qua m t s gi i thu t mà tác gi ñã tìm hi u ñư c liên quan ñ n v n ñ này.
- - 19 - Theo tài li u [23], nhóm tác gi này ñã ti n hành xây d ng otomat ñoán nh n t v ng, ph c v cho vi c tách t v ng trong văn b n ti ng Vi t. Tư tư ng c a thu t toán tách t v ng là quy vi c phân tách câu v vi c tìm ñư ng ñi trên m t ñ th có hư ng, không tr ng s . Gi s câu ban ñ u là m t dãy g m n+1 âm ti t s0, s1, ..., sn. Ta xây d ng m t ñ th có n+2 ñ nh v0, v1, ..., vn, vn+1, s p th t trên m t ñư ng th ng t trái sang ph i; trong ñó, t ñ nh vi ñ n ñ nh vj có cung (i < j) n u các âm ti t si, si+1, ..., sj-1 theo th t l p thành m t t . Khi ñó m i cách phân tách câu khác nhau tương ng v i m t ñư ng ñi trên ñ th t ñ nh ñ u v0 ñ n ñ nh cu i vn+1. Trong th c t , cách phân tích câu ñúng ñ n nh t thư ng ng v i ñư ng ñi qua ít cung nh t trên ñ th . Trong trư ng h p câu có s nh p nh ng thì ñ th s có nhi u hơn m t ñư ng ñi ng n nh t t ñ nh ñ u ñ n ñ nh cu i, ta li t kê toàn b các ñư ng ñi ng n nh t trên ñ th , t ñó ñưa ra t t c các phương án tách câu có th và ñ ngư i dùng quy t ñ nh s ch n phương án nào, tuỳ thu c vào ng nghĩa ho c văn c nh. Ví d , xét m t câu có c m "thu c ñ a bàn", ta có ñ th như hình 3.7 sau: thu c ñ a thu c ña bàn ñ a bàn Hình 3.7 Otomat ñoán nh n c m t “thu c ñ a bàn” C m này có s nh p nh ng gi a thu c ñ a và ñ a bàn và ta s có hai k t qu phân tách là "thu c ñ a / bàn" và "thu c / ñ a bàn". Ta có th ch ra r t nhi u nh ng c m nh p nh ng trong ti ng Vi t, ch ng
- - 20 - h n "t h p âm ti t", "b ng ch ng c ",... Trư ng h p trong câu có âm ti t không n m trong t ñi n thì rõ ràng ôtômát âm ti t không ñoán nh n ñư c âm ti t này. K t qu là ñ th ta xây d ng t câu ñó là không liên thông. D a vào tính ch t này, ta th y r ng n u ñ th không liên thông thì d dàng phát hi n ra r ng ñơn v âm ti t không ñoán nh n ñư c không n m trong t ñi n âm ti t, t c nó b vi t sai chính t ho c là m t ñơn v âm ti t (t v ng) m i. Đ tri n khai ñư c thu t toán nói trên c n có m t cơ s d li u l n và hoàn ch nh, ñ c bi t c n xây d ng ñư c ñ th n i gi a các t ti ng Vi t. V i s lư ng g n 74.000 t ti ng Vi t, ñây là m t công vi c ñòi h i s ñ u tư th i gian và trí tu c a nhi u ngư i. Do ñó, trong th i gian h n ch c a vi c th c hi n lu n văn t t nghi p, tác gi ch n m t gi i pháp khác ñ ñ m b o xây d ng ñư c m t chương trình demo h tr x lý m t s hi n tư ng nh p nh ng c th . Trên cơ s ý tư ng c a thu t toán ñư c ñ c p trong tài li u Error! Reference source not found., tác gi xây d ng cho mình m t gi i thu t khác, gi i thu t này cũng d a trên tính ch t “cách phân tách t i ưu nh t là tách ñư c nh ng t có nhi u âm ti t nh t”. Trư c tiên chương trình s ti n hành ki m tra l i chính t m c âm ti t ñ ñ m b o r ng văn b n ñã ñư c vi t ñúng chính t ti ng Vi t m c th p nh t là m c âm ti t, sau ñó thay vì ti n hành ñ c vào t ng âm ti t và ki m tra tính liên thông (như thu t toán ñã ñ c p trên) thì s ñ c vào m t âm ti t (g i là âm ti t X) là âm ti t ñ u tiên c a ph n văn b n s ñư c x lý, sau ñó ki m tra s t n t i c a c m t dài nh t ch a âm ti t v a ñ c (g i là t Y) có t n t i trong ti ng Vi t hay không, n u t n t i thì xem như ñây là cách tách t t i ưu nh t và không chia nh c m t Y, n u không t n t i thu t toán s
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Tóm tắt Luận văn Thạc sĩ Luật học: Xử lý hợp đồng lao động vô hiệu theo pháp luật Việt Nam
19 p | 278 | 71
-
Luận văn Thạc sĩ Ngôn ngữ học: Tìm hiểu ca từ của nhạc sĩ trẻ (qua các ca khúc tiếng Việt được yêu thích trên trang mạng mp3.zing.vn trong năm 2012)
341 p | 180 | 39
-
Luận văn thạc sĩ: Tìm hiểu web ngữ nghĩa, xây dựng ứng dụng tìm kiếm tài liệu tiếng Việt
13 p | 215 | 32
-
Luận văn thạc sĩ Sinh học: Tìm hiểu ảnh hưởng của liều lượng và thời điểm bón phân Kali đến khả năng chịu hạn cho giống ngô CP 888 tại xã EaPhê huyện Krông Pắc tỉnh Đăk Lăk
110 p | 180 | 31
-
Luận văn Thạc sĩ Quản trị kinh doanh: Nâng cao chất lượng cán bộ, công chức cấp xã tại Yên Khánh Ninh Bình
0 p | 137 | 29
-
Luận văn thạc sĩ: Tìm hiểu công nghệ tri thức, xây dựng hệ thống hỏi đáp phục vụ giảng dạy môn Vật Lý trường THPT
13 p | 114 | 27
-
Tóm tắt luận văn Thạc sĩ Kỹ thuật: Ứng dụng web ngữ nghĩa và khai phá dữ liệu xây dựng hệ thống tra cứu, thống kê các công trình nghiên cứu khoa học
26 p | 159 | 17
-
Tóm tắt luận văn Thạc sĩ: Tìm hiểu mô hình quản lý và truy xuất dữ liệu đám mây IDRAGON ứng dụng cho thiết bị di động
29 p | 133 | 16
-
Luận văn thạc sĩ: Tìm hiểu ngữ nghĩa tiếng Việt xây dựng kho ngữ vựng dựa nghĩa trong xử lý tiếng Việ
26 p | 113 | 12
-
Luận văn Thạc sĩ Công nghệ thông tin: Ứng dụng đồ thị Euler tối ưu hóa bài toán tìm đường đi ngắn nhất
79 p | 49 | 10
-
Luận văn Thạc sĩ Công tác xã hội: Dịch vụ công tác xã hội trong hỗ trợ tìm kiếm việc làm cho người nghèo tại xã Võng Xuyên, huyện Phúc Thọ, thành phố Hà Nội
154 p | 40 | 9
-
Tóm tắt luận văn Thạc sĩ Kỹ thuật: Khai phá luật kết hợp mờ đa cấp và ứng dụng
26 p | 127 | 8
-
Luận văn thạc sĩ: Tìm hiểu công nghệ kim xây dựng ứng dụng chú giải ngữ nghĩa tự động
14 p | 71 | 5
-
Luận văn Thạc sĩ Máy tính: Nghiên cứu thuật toán filter-wrapper tìm tập rút gọn của bảng quyết định không đầy đủ và ứng dụng phát hiện tàu thuyền từ ảnh vệ tinh
67 p | 23 | 5
-
Luận văn Thạc sĩ Công nghệ thông tin: Kỹ thuật Matrix Factorization trong xây dựng hệ tư vấn
74 p | 39 | 4
-
Luận văn Thạc sĩ ngành Máy tính: Ứng dụng mã nguồn mở ElasticSearch vào hệ thống tìm kiếm danh bạ y tế hiệu quả
98 p | 38 | 4
-
Luận văn Thạc sĩ Luật học: Tìm hiểu pháp luật quốc tế, pháp luật một số nước trên thế giới và liên hệ với pháp luật Việt Nam về hoạt động thăm dò, khai thác, sử dụng khoảng không vũ trụ
138 p | 22 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn