Luận văn thạc sĩ: Tìm hiểu ngữ nghĩa tiếng Việt xây dựng kho ngữ vựng dựa nghĩa trong xử lý tiếng Việ
lượt xem 12
download
Tìm hiểu ngữ nghĩa tiếng Việt xây dựng kho ngữ vựng dựa nghĩa trong xử lý tiếng Việt nhằm giải thích nghĩa các từ, các cụm từ hay câu dựa vào các từ liên quan, thu nhận dữ liệu qua mạng Internet.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Luận văn thạc sĩ: Tìm hiểu ngữ nghĩa tiếng Việt xây dựng kho ngữ vựng dựa nghĩa trong xử lý tiếng Việ
- 1 B GIÁO D C VÀ ĐÀO T O Đ I H C ĐÀ N NG NGUY N TH KIM NGÂN TÌM HI U NG NGHĨA TI NG VI T XÂY D NG KHO NG V NG D A NGHĨA TRONG X LÝ TI NG VI T Chuyên ngành: KHOA H C MÁY TÍNH Mã s : 60-48-01 TÓM T T LU N VĂN TH C SĨ K THU T Đà N ng - Năm 2011
- 2 Công trình ñư c hoàn thành t i Đ I H C ĐÀ N NG Ngư i hư ng d n khoa h c: PGS.TS.Phan Huy Khánh Ph n bi n 1: PGS.TS. Võ Trung Hùng Ph n bi n 2: PGS.TS. Lê M nh Th nh Lu n văn ñư c b o v trư c H i ñ ng ch m Lu n văn t t nghi p Th c sĩ k thu t h p t i Đ i h c Đà N ng vào ngày 11 Tháng 09 Năm 2011. Có th tìm hi u Lu n văn t i: - Trung t m Thông tin - H c li u, Đ i h c Đà N ng - Trung tâm H c li u, Đ i h c Đà N ng
- 3 M Đ U 1. Lý do ch n ñ tài Ti ng Vi t phát tri n nhanh chóng. Cho ñ n nay có kho ng 100 tri u t ti ng Vi t. V i s lư ng ñó, ti ng Vi t ñ kh năng di n ñ t m i thu t ng khoa h c thu c m i lĩnh v c mà không c n vay mư n t c a các nư c khác như nh ng năm trư c ñây. Tuy nhiên, cũng có nh ng t , c m t , câu trong ti ng Vi t không theo m t quy lu t hay c u trúc ng pháp nào, t m i lai ghép, nghĩa m i xu t hi n trên m i phương di n. Trong khi ñó, m i ho t ñ ng thu c lĩnh v c Tin h c trong x lý ngôn ng ñ u có nhu c u s d ng kho ng v ng ti ng Vi t. Đã có nhi u ng d ng tin h c trong x lý ti ng Vi t, nhưng nh ng ng d ng này v n còn m t s h n ch , c th như: T t c các ng d ng nói trên ñ u chưa có kho ng li u t v ng dùng chung. M i ng d ng t xây d ng cho mình m t kho ng v ng riêng. Thi u tính nh t quán vì các kho ng li u này không có kh năng k t h p ñư c v i nhau. Đây là các kho ng li u không có c u trúc, không có tính m vì th s t o ra m t s khó khăn nh t ñ nh trong vi c khai thác, c p nh t cũng như chia s ngu n d li u dùng chung. Cũng ñã có nhi u công trình nghiên c u cho ra ñ i các kho ng v ng ti ng Vi t tương ñ i hoàn ch nh, có c u trúc, có tính m , ñư c c p nh t và s a ñ i thư ng xuyên nh m kh c ph c các như c ñi m nói trên nhưng n u ng d ng các công trình nghiên c u trên ñ xây d ng t ñi n hay các ph n m m, các website tìm ki m thì v n còn có các h n ch . C th như:
- 4 Các t trong các kho ng li u này có ñ dài ng n, ch y u là t ñơn hay t ghép nên nh ng c m t hay câu chưa bi t d a nghĩa vào kho ng v ng nào. Ch y u li t kê nghĩa, ch có c u trúc theo ngôn ng , cú pháp, chưa có m t nghiên c u có tính khoa h c nào v nghĩa, c u trúc nghĩa, kh năng v n d ng c a ngôn ng ti ng Vi t. Các ng d ng CNTT ñang ph i ñ i m t v i nhi u v n ñ như s ña nghĩa v t , s nh p nh ng v ng nghĩa, s ph thu c vào ng c nh, s khác bi t v gi i thích các khái ni m…Nhưng l i thi u các t ñi n có ñ y ñ nghĩa cho t , c m t có gi i nghĩa theo ñà phát tri n c a nghĩa và s d ng nghĩa. 2. M c tiêu và nhi m v nghiên c u Nghiên c u, ñưa ra phương pháp xây d ng kho ng v ng ti ng Vi t d a nghĩa nh m gi i thích nghĩa c a các t , các c m t hay câu d a vào các t liên quan, thu nh n d li u qua m ng internet. Các ng d ng tin h c sau này có th d a vào nó nh m ti t ki m th i gian và công s c tra c u nhưng k t qu v n như mong mu n. M c ñích chính c a ñ tài là xây d ng kho ng v ng ti ng Vi t d a nghĩa bao g m các t ñơn, t ghép, c m t , th m chí c câu và gi i thích ý nghĩa c a chúng. Đ ñ t ñư c m c tiêu trên, ñ tài c n th c hi n các nhi m v sau: Tìm hi u ti ng Vi t, ng nghĩa ti ng Vi t, các kho ng v ng ti ng Vi t, các ng d ng x lý ti ng Vi t trong CNTT. Tìm ra phương pháp xác ñ nh nghĩa cho các t trong kho ng v ng d a nghĩa.
- 5 Tìm hi u mô hình, c u trúc c a các kho ng v ng ti ng Vi t hi n có, t ñó xác ñ nh mô hình c u trúc c a kho ng v ng d a nghĩa. Xây d ng kho ng v ng theo mô hình và thu c m t lĩnh v c nh t ñ nh. 3. Đ i tư ng và ph m vi nghiên c u Nghiên c u lý thuy t, tìm hi u các cách th c t ch c d li u, gi i pháp c p nh t d li u, các thu t toán tách t , tách câu, ghép t trong văn b n ñ ñưa ra gi i pháp cho ng d ng c a mình. Đưa ra các mô hình v x lý và c p nh t d li u ñ t o ra kho ng v ng d a nghĩa. Nghiên c u tri n khai các thu t toán, các ngôn ng l p trình thích h p, các công c h tr ñ xây d ng ng d ng th nghi m. 4. Gi thi t nghiên c u Nghiên c u lý thuy t v ti ng Vi t. Nghiên c u c u trúc kho ng v ng ti ng Vi t, các gi i pháp c p nh t CSDL. 5. Phương pháp nghiên c u Thu th p, tìm hi u, phân tích các tài li u và thông tin có liên quan ñ n lu n văn. Phân tích thi t k h th ng chương trình. Tri n khai xây d ng chương trình. Ki m th , ñưa ra nh n xét và ñánh giá k t qu . 6. Ý nghĩa khoa h c và th c ti n c a ñ tài Ý nghĩa khoa h c : H tr cho vi c xây d ng t ñi n ñơn, song ho c ña ng hay các chương trình ng d ng khác. Ý nghĩa th c ti n : Kh năng ng d ng kho ng v ng ñ x lý ngôn ng ti ng Vi t như: tìm ki m văn b n, phân tích văn b n, d ch thu t…
- 6 7. B c c c a lu n văn Ph n m ñ u: Lý do ch n ñ tài, m c tiêu, nhi m v , ñ i tư ng, ph m vi, gi thi t, phương pháp nghiên c u, ý nghĩa khoa h c và th c ti n c a ñ tài. Ph n n i dung: Bao g m 3 chương Chương 1: Nghiên c u ti ng Vi t và ng nghĩa trong ti ng Vi t Chương 2: Gi i pháp xây d ng kho ng v ng ti ng Vi t d a nghĩa. Chương 3: Tri n khai xây d ng kho ng v ng ti ng Vi t d a nghĩa . K t lu n. CHƯƠNG 1 : NGHIÊN C U TI NG VI T VÀ NG NGHĨA TI NG VI T 1.1.Tìm hi u ti ng Vi t 1.1.1.Đ c ñi m ti ng Vi t 1.1.1.1.Đ c ñi m ng âm 1.1.1.2.Đ c ñi m t v ng 1.1.1.3.Đ c ñi m ng pháp 1.1.1.4.Đ c ñi m ng nghĩa T v ng trong ti ng Vi t thư ng x y ra hi n tư ng ña nghĩa, ñ ng nghĩa và ñ ng âm. Hi n tư ng ña nghĩa là hi n tư ng cùng m t hình th c ng âm c a t có th ng v i nhi u ph m vi s v t, hi n tư ng khác nhau và có quan h g n bó ch t ch v i nhau. Hi n tư ng nhi u nghĩa là k t qu c a s chuy n bi n ý nghĩa c a t . Có hai phương th c chuy n nghĩa ph bi n: Phương th c n d và phương th c hoán d .
- 7 Hi n tư ng ñ ng nghĩa là hi n tư ng nh ng t có nghĩa g n nhau hay gi ng nhau, có th thay th ñư c cho nhau trong nh ng ng c nh gi ng nhau mà ý nghĩa chung c a câu không thay ñ i v cơ b n. Hi n tư ng ñ ng âm là nh ng t khi gi a chúng có hình th c ng âm gi ng nhau và không có quan h v i nhau v m t ý nghĩa. Có 2 lo i t ñ ng âm: Ð ng âm gi a t v i t , ñ ng âm gi a t v i ti ng. 1.1.2.Các ñơn v c u t o nên văn b n ti ng Vi t 1.1.2.1.Ti ng Ti ng là ñơn v cơ s c u t o t ti ng Vi t. Ti ng là y u t có nghĩa ho c có giá tr v nghĩa. 1.1.2.2.T ñơn T ñơn là nh ng t ñư c c u t o b ng m t ti ng ñ c l p. 1.1.2.3.T ghép T ghép tuy t ñ i ña s ñ u xây d ng d a trên cơ s hai thành t tr c ti p m c d u s lư ng ñơn v g c có th lên ñ n s 3, 4. Tuy nhiên ñây là nh ng trư ng h p không ñi n hình. Đa s các TGTV có th ñư c hình thành v i 9 ki u k t h p sau: Danh t + Danh t , Danh t + Đ ng t , Danh t + Tính t , Đ ng t + Đ ng t , Đ ng t + Danh t , Đ ng t + Tính t , Tính t + Tính t , Tính t + Danh t , Tính t + Đ ng t [19]. AB là m t t ghép thì nghĩa c a AB là A ho c B ho c A+B ho c B+A. 1.1.2.4.C m t C m t là m t t h p g m t hai t tr lên ñư c k t h p v i nhau theo m t quan h nào ñó. Ng là c m t ñư c c u t o theo quan h chính ph . Sơ ñ chung c a ng là: Pt – T – Ps. a)Ng danh t
- 8 Ta có th k t h p các t lo i theo c u trúc sau ñ hình thành 19 ki u ng danh t g m 3 ti ng: Cái + Danh t ch lo i + Danh t ; Cái + Danh t ch ñơn v + Danh t ; T ch s lư ng + Danh t ch lo i + Danh t ; T ch s lư ng + Danh t ch ñơn v + Danh t ; T ch s lư ng + cái + Danh t ; T ch t ng lư ng + Danh t ch ñơn v + Danh t ; T ch t ng lư ng + danh t ch lo i + Danh t ; t ch t ng lư ng +cái + Danh t ; t ch t ng lư ng +T ch s lư ng + Danh t ; Danh t ch lo i + Danh t + Th c t ; Danh t ch ñơn v + Danh t + Th c t ; Cái + Danh t + Th c t ; T ch s lư ng + Danh t + Th c t ; T ch t ng lư ng + Danh t + Th c t ; Danh t ch ñơn v + Danh t + Đ nh t ; Cái + Danh t + Đ nh t ; T ch s lư ng + Danh t + Đ nh t ; T ch s lư ng + Danh t + Đ nh t ; Danh t + Th c t + Đ nh t ; b)Ng ñ ng t Ta có th k t h p các t lo i theo c u trúc sau ñ hình thành 5 ki u ng ñ ng t g m 3 ti ng như sau: Đ ng t tình thái + Đ ng t + 1 t ñơn khác; Phó t + Đ ng t + 1 t ñơn khác;Th c t + Đ ng t + 1 t ñơn khác; Phó t + Đ ng t tình thái +Đ ng t ; Th c t + Đ ng t tình thái +Đ ng t ; c)Ng tính t Ta có th k t h p các t lo i theo c u trúc sau ñ hình thành ng tính t g m 3 ti ng: Phó t + Tính t + Danh t ; Phó t + Tính t + Đ ng t ; Phó t + Tính t + Đ i t ; Phó t + Tính t + Phó t ; Phó t + Tính t + Tính t ; Mô hình ng nghĩa c a các ng (danh t , ñ ng t , tính t ) có th là: Nghĩa c a ng = Nghĩa c a ph n ph trư c +Nghĩa c a ph n trung tâm + Nghĩa c a ph n ph sau.
- 9 1.1.2.5.Câu 1.1.3.T lo i trong ti ng Vi t 1.1.4.Các y u t nh hư ng ñ n ng nghĩa ti ng Vi t 1.1.4.1.S ña nghĩa c a t M t t ngoài nghĩa g c c a nó còn có các nghĩa khác. S ña nghĩa cu t gây ra s nh p nh ng. 1.1.4.2.Tr t t t Tr t t t có vai trò r t quan tr ng trong di n ñ t các ý nghĩa c a t . V trí thay ñ i, ý nghĩa c a m i t cũng thay ñ i theo. Tr t t thay ñ i có th d n ñ n vô nghĩa 1.1.4.3.Hư t Cái hay và ñ c s c c a ng pháp ti ng Vi t là nh ng hư t . Hãy ñ t hư t trong ng pháp giao ti p, nhi u hi n tư ng khó hi u c a ng pháp ti ng Vi t s tr nên sáng s a. 1.1.4.4.Ng ñi u Ng ñi u là phương th c bi u hi n các ý nghĩa ng pháp b ng cách làm thay ñ i ch t gi ng trong l i nói. Ng ñi u là phương th c có tác d ng trong l i nói. 1.1.4.5.Ng c nh Có nh ng t , c m t , câu hoàn toàn gi ng nhau khi trong ng c nh khác nhau thì có ý nghĩa hoàn toàn khác nhau. 1.1.5.Xu th phát tri n c a ti ng Vi t 1.1.5.1.S hoà tr n các phương ng Thay cho s phân bi t r ch ròi s d ng t ng phương ng , ñang d n d n hình thành m t c ng ñ ng ngư i Vi t Nam s d ng cùng m t lúc, nh ng th i ñi m khác nhau, ho c trong nh ng cu c ñ i tho i khác nhau, các bi n th phương ng khác nhau.
- 10 1.1.5.2.S thâm nh p c a các ngo i ng Ð có th bù ñ p cho s thi u h t v ngôn ng trong giai ño n m c a ñ có th "làm b n" và giao lưu, buôn bán v i th trư ng m i, ñ c bi t là các nư c ASEAN,... chúng ta ch ng ki n s thâm nh p c a các ngo i ng . 1.2.X lý ti ng Vi t Trong CNTT 1.2.1.Các ch ñ nghiên c u chính 1.2.2.Các k t qu ñã ñ t ñư c 1.2.3.Tình hình và xu th phát tri n 1.3.T ñi n h c 1.3.1.Khái ni m t ñi n 1.3.2.Phân lo i t ñi n 1.3.3.M t s t ñi n thông d ng 1.3.3.1.T ñi n gi y 1.3.3.2.T ñi n ñi n t 1.3.3.3.T ñi n máy tính 1.3.4.M t vài nh n xét v hình th c lưu tr t ñi n Đ c ñi m chung c a các CSDL t v ng là ngu n d li u r t l n, không cùng t ch c và không cùng cách bi u di n bên trong máy tính. Vi c b o trì, khai thác, c p nh t thư ng g p nhiêu khó khăn. M t trong nh ng nguyên nhân là các ngu n d li u l y t nhi u nơi, t các t ñi n gi y, ho c t m ng internet, không ñ ng nh t v cách t ch c, không hoàn toàn gi ng nhau v n i dung. 1.4.K t lu n chương Đ i v i các ng d ng CNTT trong nghiên c u ti ng Vi t, mu n thành công thì công vi c c n thi t ñ u tiên là ph i xây d ng m t kho ng li u t v ng ti ng Vi t có ph m ch t t t.
- 11 CHƯƠNG 2: GI I PHÁP XÂY D NG KHO NG V NG TI NG VI T D A NGHĨA 2.1.V n ñ xây d ng kho ng v ng ti ng Vi t d a nghĩa 2.1.1.Khái ni m d a nghĩa Kho ng v ng ti ng Vi t d a nghĩa ch a các t ghép, c m t (ng ) và câu (câu ñơn bình thư ng) cùng v i ý nghĩa c a chúng. Ý nghĩa này chính là ý nghĩa c a t ñơn trong các cách v n d ng các t ñơn vào trong các ñơn v l n hơn (t ghép, c m t , câu). Các m c t trong kho ng v ng d a nghĩa ñư c xây d ng trên cơ s các t ñơn và ý nghĩa c a nó d a vào các kho ng v ng ñã có. Như v y, khái ni m d a nghĩa ñây chính là cách v n d ng các t ñơn trong các ñơn v l n hơn nó (t ghép, c m t , câu). 2.1.2.Bài toán xây d ng kho ng v ng ti ng Vi t d a nghĩa V i ngu n d li u t Internet và t phía ngư i s dung, v n ñ ñ t ra là làm sao và b ng cách nào có th xây d ng ñư c m t kho ng li u ngôn ng căn b n hoàn ch nh ñư c c p nh t và s a ñ i thư ng xuyên, có tính m , không nh p nh ng v nghĩa trong quá trình tra c u. Kho ng v ng cho phép ngư i s d ng có th tra c u ñư c các t ñơn cùng v i các ý nghĩa c a chúng, cách v n d ng t ñơn vào các ñơn v l n hơn như: t ghép, c m t … Kho ng v ng có các tính ch t trên chính là kho ng v ng ti ng Vi t d a nghĩa mà ta c n xây d ng. 2.1.3.Vai trò, n i dung và tr ng thái c a kho ng v ng ti ng Vi t d a nghĩa Kho ng v ng ti ng Viêt d a nghĩa dùng ñ lưu tr t t c các t v ng (t ñơn, t ghép), các ng , các c m t , các câu dài nh t có th và nghĩa c a chúng. V i kho ng v ng ti ng Viêt d a nghĩa, chúng ta có th xây d ng các công c khai thác giúp ích cho vi c d y - h c ti ng Vi t cũng như phát tri n thêm các ng d ng khác như: Xây d ng t
- 12 ñi n, b t l i chính t trong x lý văn b n ti ng Vi t, nh n d ng ti ng Vi t… Đ c bi t là dùng ñ gi i quy t bài toán d ch t ñ ng - m t trong nh ng bài toán khó ñ i v i ngành CNTT hi n nay. Đ d li u trong kho ngày càng ña d ng và phong phú, d ti p c n, d khai thác, ta c n xây d ng m t kho ng v ng luôn ñ t trong tr ng thái m . 2.1.4.C u trúc c a kho ng v ng d a nghĩa 2.1.4.1.C u trúc c p nh t và khai thác CSDL C u trúc c a kho ng v ng ti ng Vi t d a nghĩa bao g m các b ng d li u: B ng TUGHEP: Ch a các t ghép trong kho ng v ng d a nghĩa. B ng NGHIATUGHEP: Ch a các nghĩa c a t ghép tương ng v i t ng n i dung. B ng CUMTU: Ch a các c m t c a kho ng v ng d a nghĩa. B ng NGHIACUMTU: Ch a các nghĩa c a các c m t tương ng v i t ng n i dung. Hai TUGHEP và NGHIATUGHEP liên k t v i nhau thông qua trư ng MaTuGhep. Hai CUMTU và NGHIACUMTU liên k t v i nhau thông qua trư ng MaCumTu. 2.1.4.2.C u trúc lưu tr XML V i c u trúc CSDL như ph n 2.1.5.1, ta xây d ng m t công c chuy n các t p CSDL sang d ng c u trúc XML. T p TUGHEP.XML có c u trúc như sau:
- 13 2.1.5.Phương pháp c p nh t d li u 2.1.5.1.C p nh t b ng phương pháp t ñ ng 2.1.5.2.C p nh t b ng phương pháp th công 2.2.Ngu n d li u c a kho ng v ng ti ng Vi t d a nghĩa 2.2.1.Xây d ng kho d li u ngu n 2.2.1.1.Xây d ng ki n trúc m c t B ng TUDON B ng 2.11: C u trúc c a b ng TUDON Tên trư ng Ki u d li u Đ r ng MaTuDon Autonumber 8 NoiDung Text 50 B ng NGHIATUDON B ng 2.12: C u trúc b ng NGHIATUDON Tên trư ng Ki u d li u Đ r ng MaNghia Autonumber 8 MaTuDon Number 8 MaLoaiTu Number 8 Nghia Memo 4000 Hai b ng này liên k t v i nhau thông qua trư ng MaTuDon. B ng TUDON c a kho d li u ngu n liên k t v i b ng TUGHEP và CUMTU c a kho ng v ng d a nghĩa thông qua trư ng MaTuDon. 2.2.1.2.C p nh t d li u cho kho d li u ngu n(TUDON) 2.2.2.Các ngu n d li u
- 14 2.2.2.1.Bách khoa toàn thư m Wikipedia 2.2.2.2.D án t ñi n ti ng Vi t mi n phí 2.2.2.3.D án Jeuxmots 2.2.2.4.T ñi n tr c tuy n Vdict 2.3.Các công c h tr xây d ng CSDL và l p trình 2.3.1.XML 2.3.2.H qu n tr CSDL Access 2.3.3.PHP 2.3.4.CHARP (C#) 2.4.K t lu n chương C n ph i phát tri n ng d ng trên môi trư ng Internet b ng cách s d ng m t Website ñ c p nh t d li u, s d ng h qu n tr CSDL Access và ngôn ng l p trình C# ñ phát tri n ng d ng. CHƯƠNG 3: TRI N KHAI XÂY D NG KHO NG V NG TI NG VI T D A NGHĨA 3.1.Tri n khai xây d ng kho ng v ng ti ng Vi t d a nghĩa 3.1.1.Ph m vi Chúng ta xác ñ nh trong ñ tài này, ta ch d ng l i vi c làm th nào ñ t o ra ñư c kho ng v ng ti ng Vi t d a nghĩa. Đ thu th p d li u cho kho ng v ng này, th c hi n các công vi c: Xây d ng c u trúc c a kho, thêm t v ng m i vào kho, gi i thích t v ng. Các t v ng trong kho d a nghĩa bao g m: T ghép, các ng (danh ng , tính ng , ñ ng ng ) bao g m 3 ti ng. 3.1.2.Ho t ñ ng Ta s xây d ng m t kho ng v ng ti ng Vi t ho t ñ ng theo hư ng m ñ i v i d li u. Đ làm ñư c ñi u này, ta s xây d ng m t Website ñ thu th p d li u cho kho ng v ng, m i thành viên c a
- 15 Website ñ u có th c p nh t, s a ñ i và góp ý ki n v i d li u c a kho ng v ng ti ng Vi t d a nghĩa. Website ñư c xây d ng nh m l y ý ki n c a thành viên (tham kh o), sau ñó s quy t ñ nh b i chuyên gia. Đ thu hút thành viên, ta s thi t l p môi trư ng vui chơi cho các thành viên, ghi l i các ñóng góp c a t ng thành viên và s p x p c p b c ( o), c p bâc càng cao càng có nhi u quy n l i trên Website. 3.1.3.Ch n l c d li u 3.1.3.1.Cách th c l a ch n chuyên gia Quy trình ch n chuyên gia ñư c th c hiên như sau: Thành viên ñóng góp tích c c cho Website: Hoàn thành 3 bài t p ph n trò chơi, c p nh t ñư c hơn 10 t v ng m i, thêm ít nh t 100 t , c m t vào kho ng v ng. Ngư i qu n lý Website s quy t ñ nh có b nhi m làm chuyên gia hay không, ho c tư c quy n chuyên gia c a thành viên. Khi m t chuyên gia c p nh t sai 10 t v ng thì s b tư c quy n chuyên gia. 3.1.3.2.Ch n l c d li u D li u c a Website ñư c t p h p t hai ph n Ph n g c: D li u c a ph n này bao g m: • Kho d li u ngu n (kho TUDON): Kho t ñơn có th nh p tay ho c trích xu t t các b t ñi n. • Kho d li u thô: Ngu n d li u ñư c l y t sách, báo, t p chí… do ngư i s d ng tr c ti p nh p vào Website ho c l y t internet. Ngu n d li u này s ñư c chương trình tách câu và lưu vào kho, làm d li u cho trò chơi trong Website. • Kho d li u trung gian: Ch a các t , các c m t ñư c c p nh t b ng phương pháp t ñ ng (nh m t modul
- 16 c a chương trình) và b ng phương pháp th công (thông qua trò chơi) chưa qua s ki m duy t c a chuyên gia. • Kho ng v ng ti ng Vi t d a nghĩa: tr ng thái ban ñ u, chưa có d li u, d li u s càng ngày càng nhi u khi th c hi n ph n b sung. Ph n b sung: Trong m i th i ñi m, d li u s ñư c c p nh t, b sung b i các thành viên tham gia Website. 3.1.4.Mô hình Mô hình thu th p d li u cho kho ng v ng d a nghĩa Hình 3. 1: Mô hình thu th p d li u cho kho ng v ng d a nghĩa 3.1.5.C u trúc cơ s d li u Ngoài các kho d li u ngu n và kho d li u d a nghĩa, ta c n có các kho d li u sau:
- 17 a)Kho d li u thô: Dùng làm CSDL cho sân chơi. b)Kho d li u trung gian: Là b ng ch a các t , c m t , câu…mà ngư i s d ng c p nh t, thay ñ i t kho d li u thô, chưa qua s ki m duy t c a chuyên gia. c)B ng thông tin thành viên: D li u c a b ng ñư c lưu khi ngư i dùng ñăng ký tài kho n thành công, vi c thay ñ i d li u có th th c hi n b i ngư i dùng. d)B ng c p b c ngư i chơi: Là b ng ch a thông tin ñã s p x p c p b c c a ngư i tham gia sân chơi c a chương trình. ñây c p b c s ñư c ñưa ra căn c vào s bài post lên trang web c a ngư i chơi và s vòng chơi mà ngư i ñó ñã vư t qua trong sân chơi. D li u ñ u vào c ñ nh và ñư c Admin c p nh t ho c thay ñ i theo yêu c u c a h th ng. 3.1.6.Phân tích và thi t k h th ng 3.1.6.1.Phân tích h th ng a)Sơ ñ phân c p ch c năng b)Bi u ñ lu ng d li u Bao g m: Bi u ñ lu ng d li u m c khung c nh, bi u ñ lu ng d li u m c ñ nh, bi u ñ lu ng d li u m c dư i ñ nh. Bi u ñ lu ng d li u m c dư i ñ nh ñư c phân tích thành 3 bi u ñ : Bi u ñ lu ng d li u ch c năng “Thu th p d li u”, Bi u ñ lu ng d li u ch c năng “tra c u t v ng”, Bi u ñ lu ng d li u ch c năng “th ng kê” 3.1.6.2.Thu t toán th c hi n các ch c năng a)Ch c năng tách t B ng 3.6: Thu t toán tách câu Kh i ñ ng CSDL DULIEUTHO WHILE Chưa hêt văn b n DO
- 18 IF g p các d u hi u k t thúc câu THEN Tách ra thành câu ENDIF C p nh t vào kho DULIEUTHO ENDDO B ng 3.7: Thu t toán tách t WHILE Chưa k t thúc câu DO IF g p ký t tr ng THEN Tách ra thành t ENDIF ENDDO b)Ch c năng ghép t Bư c 1: Xây d ng CSDL ngu n ch a t t c các t ñơn ti ng Vi t, ñư c g i là b ng CSDL ngu n (ñã trình bày trong ph n 2.3.1) Bư c 2: D a vào trư ng LoaiTu, l c t CSDL ngu n các danh t , ñ ng t , tính t ñ t o ra CSDL ñư c ñ t tên là DDT (có ki n trúc m c t như CSDL ngu n). Các m c t ñư c s p x p t A ñ n Y như trong CSDL TUDON. Bư c 3: Tương t , l c t CSDL ngu n các danh t ñơn ñ t o ra CSDL DANHTU, các tính t ñơn ñ t o ra CSDL TINHTU, các ñ ng t ñ t o ra CSDL DONGTU, các t ch t ng lư ng ñ t o ra CSDL TONGLUONG, các t ch s lư ng ñ t o ra CSDL SOLUONG, các danh t ch lo i ñ t o ra CSDL DT_LOAITU, các danh t ch ñơn v ñ t o ra CSDL DT_DONVI, các th c t ñ t o ra CSDL THUCTU, các ñ nh t ñ t o ra CSDL DINHTU, các ñ ng t tình thái ñ t o ra CSDL DOTT, các phó t ñ t o ra CSDL PHOTU. Các m c t c a các CSDL này ñư c t ch c theo v n t A ñ n Y. Thu t toán c p nh t nghĩa c a t ghép B ng 3.8: Thu t toán c p nh t nghĩa c a t ghép Kh i ñ ng các CSDL TUGHEP WHILE chưa x lý h t CSDL TUGHEP DO Láy m t t ghép AB Є CSDL TUGHEP
- 19 AB.Nghia = A.Nghia; AB.NGHIA =B.Nghia ; AB.Nghia = A.Nghia+B.Nghia; AB.Nghia=B.Nghia+A.Nghia END. Thu t toán câp nh t t ghép B ng 3.9: Thu t toán c p nh t các t ghép Kh i ñ ng CSDL DANHTU, DONGTU, TINHTU WHILE chưa x lý h t CSDL DANHTU, DONGTU, TINHTU DO BEGIN L y m t danh t X Є CSDL DANHTU; L y m t danh t YЄ CSDL DONGTU L y m t danh t Z Є CSDL TINHTU T o t ghép A=X+Y; T o t ghép B=X+Z; T o t ghép C=Y+X; T o t ghép D=Z+X; T o t ghép E=Y+Z; T o t ghép F=Z+Y WHILE chưa x lý h t CSDL DANHTU, TINHTU, DONGTU DO Begin L y m t t T Є CSDL DANHTU IF X.Matu T.MaTu THEN tao t ghép I=X+T ENDIF Láy m t t P Є CSDL TINHTU IF P.MaTu Z.MaTu THEN tao tu ghép K=P+Z ENDIF Láy m t t Q Є CSDL DONGTU IF Q.MaTU Y.MaTu THEN t o t ghép M=Q+Y ENDIF END C p nh t nghĩa END
- 20 Thông báo k t qu ; S d ng công c ñ xoá các các t ghép không ñúng Thông báo k t qu Thu t toán c p nh t c m danh t B ng 3.10: Thu t toán c p nh t c m danh t Kh i ñ ng các CSDL DANHTU, TONGLUONG,SOLUONG,DT_LOAITU, DT_DONVI, THUCTU, DINHTU WHILE chưa x lý h t các CSDL DO L y A Є CSDL DT_LOAITU;L y t B Є CSDL DANHTU; L y t C Є CSDL TONGLUONG; L y D Є CSDL SOLUONG; L y E Є CSDL DT_DONVI; L y F Є CSDL THUCTU; L y G ЄCSDL DINHTU T o c m danh t X=”Cái”+A+B; C p nh t nghĩa cho X = Nghia(”CAI”+A+B) T o các c m danh t khác theo c u trúc c a ng danh t C p nh t vào kho TRUNGGIAN ENDDO Thông báo k t qu Thu t toán c p nh t c m ñ ng t B ng 3.11: Thu t toán c p nh t c m ñ ng t Kh i ñ ng các CSDL TUDON, DONGTU, PHOTU,THUCTU,DOTT WHILE chưa x lý h t các CSDL DO L y A Є CSDL DOTT; L y B Є CSDL DONGTU; L y C Є CSDL TUDON; L y t E Є CSDL PHOTU; L y F Є CSDL THUCTU; T o c m ñ ng t X =A+B+C; C p nh t nghĩa cho X = Nghia(A+B+C) T o các c m ñ ng t vkhác theo c u trúc c a ng ñ ng t
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Tóm tắt Luận văn Thạc sĩ Luật học: Xử lý hợp đồng lao động vô hiệu theo pháp luật Việt Nam
19 p | 281 | 71
-
Luận văn Thạc sĩ Ngôn ngữ học: Tìm hiểu ca từ của nhạc sĩ trẻ (qua các ca khúc tiếng Việt được yêu thích trên trang mạng mp3.zing.vn trong năm 2012)
341 p | 181 | 39
-
Luận văn thạc sĩ: Tìm hiểu web ngữ nghĩa, xây dựng ứng dụng tìm kiếm tài liệu tiếng Việt
13 p | 215 | 32
-
Luận văn thạc sĩ Sinh học: Tìm hiểu ảnh hưởng của liều lượng và thời điểm bón phân Kali đến khả năng chịu hạn cho giống ngô CP 888 tại xã EaPhê huyện Krông Pắc tỉnh Đăk Lăk
110 p | 181 | 31
-
Luận văn thạc sĩ: Tìm hiểu công nghệ tri thức, xây dựng hệ thống hỏi đáp phục vụ giảng dạy môn Vật Lý trường THPT
13 p | 114 | 27
-
Tóm tắt Luận văn Thạc sĩ: Pháp luật về bảo đảm quyền lợi của nông dân khi Nhà nước thu hồi đất để phục vụ cho các dự án phát triển kinh tế ở Việt Nam
7 p | 123 | 21
-
Tóm tắt luận văn Thạc sĩ Kỹ thuật: Ứng dụng web ngữ nghĩa và khai phá dữ liệu xây dựng hệ thống tra cứu, thống kê các công trình nghiên cứu khoa học
26 p | 159 | 17
-
Tóm tắt luận văn Thạc sĩ: Tìm hiểu mô hình quản lý và truy xuất dữ liệu đám mây IDRAGON ứng dụng cho thiết bị di động
29 p | 133 | 16
-
Luận văn thạc sĩ: Tìm hiểu cấu trúc ngữ nghĩa Hán-Việt, xây dựng kho ngữ vựng dựa nghĩa Hán-Việt trong xử lý tiếng Việt
26 p | 96 | 15
-
Luận văn thạc sĩ: Tìm hiểu hiện tượng nhập nhằng trong tiếng Việt và khả năng khắc phục trong soạn thảo văn bản
26 p | 63 | 12
-
Luận văn Thạc sĩ Công nghệ thông tin: Ứng dụng đồ thị Euler tối ưu hóa bài toán tìm đường đi ngắn nhất
79 p | 51 | 10
-
Luận văn Thạc sĩ Công tác xã hội: Dịch vụ công tác xã hội trong hỗ trợ tìm kiếm việc làm cho người nghèo tại xã Võng Xuyên, huyện Phúc Thọ, thành phố Hà Nội
154 p | 44 | 10
-
Luận văn Thạc sĩ Ngữ văn: Tìm hiểu thơ các vua thời Thịnh Trần (từ Trần Thái Tông đến Trần Minh Tông)
132 p | 119 | 9
-
Luận văn thạc sĩ: Tìm hiểu công nghệ kim xây dựng ứng dụng chú giải ngữ nghĩa tự động
14 p | 71 | 5
-
Luận văn Thạc sĩ Máy tính: Nghiên cứu thuật toán filter-wrapper tìm tập rút gọn của bảng quyết định không đầy đủ và ứng dụng phát hiện tàu thuyền từ ảnh vệ tinh
67 p | 23 | 5
-
Luận văn Thạc sĩ Công nghệ thông tin: Kỹ thuật Matrix Factorization trong xây dựng hệ tư vấn
74 p | 40 | 4
-
Luận văn Thạc sĩ ngành Máy tính: Ứng dụng mã nguồn mở ElasticSearch vào hệ thống tìm kiếm danh bạ y tế hiệu quả
98 p | 40 | 4
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn