Luận văn thạc sĩ: Xử lý nhập nhằng tiếng Việt và ứng dụng trong tra cứu tài liệu phục vụ giảng dạy và học tập
lượt xem 9
download
Xử lý nhập nhằng tiếng Việt và ứng dụng trong tra cứu tài liệu phục vụ giảng dạy và học tập nhằm vận dụng kỹ thuật nhập nhằng trong tra cứu tài liệu để xây dựng ứng dụng tính khả thi, áp dụng lý thuyết vào cuộc sống.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Luận văn thạc sĩ: Xử lý nhập nhằng tiếng Việt và ứng dụng trong tra cứu tài liệu phục vụ giảng dạy và học tập
- B GIÁO D C VÀ ÀO T O I H C À N NG ----- ----- PH M TH THÙY LINH X LÝ NH P NH NG TI NG VI T VÀ NG D NG TRONG TRA C U TÀI LI U PH C V GI NG D Y VÀ H C T P Chuyên ngành: KHOA H C MÁY TÍNH Mã s : 60.48.01 TÓM T T LU N VĂN TH C SĨ K THU T à N ng - Năm 2013
- Công trình ư c hoàn thành t i I H C À N NG ---- ---- Ngư i hư ng d n khoa h c: PGS.TS. PHAN HUY KHÁNH Ph n bi n 1: TS. HUỲNH H U HƯNG Ph n bi n 2: TS. HOÀNG TH LANG GIAO Lu n văn ã ư c b o v t i H i ng ch m Lu n văn t t nghi p th c sĩ k thu t t i i h c à N ng vào ngày 23 tháng 02 năm 2013 Có th tìm hi u lu n văn t i: - Trung tâm Thông tin -H c li u, i h c à N ng; - Trung tâm H c li u, i h c Bách Khoa
- 1 M U 1. Lý do ch n tài Trong th i i hi n nay, công ngh thông tin ang tr thành nhân t quan tr ng cho s phát tri n kinh t - xã h i. Vi c ng d ng công ngh thông tin ngày càng tr nên ph bi n r ng rãi. M i lĩnh v c, m i s n ph m trong xã h i u mang d u n c a công ngh thông tin. Hi n nay, nhu c u tra c u thông tin h u ích r t c n thi t i v i m i ngư i, có th tra c u thông tin trên sách báo, truy n thông…, nh t là th i i m bùng n thông tin như hi n nay: thông tin thay i t ng ngày, t ng gi , luôn luôn c p nh p thông tin, tra c u thông tin trên Internet ư c m i ngư i quan tâm. Công c tra c u ch y u trên Internet s d ng ngôn ng Châu Âu (ti ng Anh, ti ng Pháp…), i v i ti ng Vi t các công c này tra c u tìm ki m kém hi u qu , b i vì ti ng Vi t là th ti ng a nghĩa, m t t thư ng có nhi u hơn m t nghĩa, r t d hi u nh m vì có tính nh p nh ng cao. Vi c v n d ng công ngh thông tin vào ngành Giáo D c không còn xa l , h u như t t c các trư ng h c u ng d ng tin h c vào gi ng d y và h c t p. Trư ng Cao ng Lương Th c-Th c Ph m Thành ph à N ng là trư ng tr ng i m c a B Nông nghi p và Phát tri n nông thôn. Trư ng ào t o a d ng nhi u ngành ngh b c Cao ng, Trung c p, trong ó ngành ào t o tr ng tâm c a nhà trư ng: ngành Ch bi n th c ph m, ngành ã ào t o ngu n nhân l c l n cho các xư ng, xí nghi p, công ty ch bi n th c ph m… Ngành Ch bi n th c ph m bao g m nh ng ki n th c cơ b n v nguyên li u, kĩ thu t ch bi n m t s s n ph m t rau qu , th y s n, bánh k o, bia, rư u, nư c gi i khát; quy trình công ngh ch bi n, yêu c u công ngh và các thông s kĩ thu t c n thi t c a t ng
- 2 quá trình, nh ng y u t nh hư ng n quá trình ch bi n m t s s n ph m t rau qu , s n ph m th y s n, bánh k o, bia, rư u, nư c gi i khát ánh giá ư c ch t lư ng s n ph m Ngành Ch bi n th c ph m b c cao ng ư c ào t o trong 3 năm, sinh viên sau khi t t nghi p có th m nh n các công vi c c a cán b k thu t, t trư ng s n xu t, trư ng ca... các dây chuy n s n xu t, ch bi n th c ph m t i các c s ch bi n, b o qu n và kinh doanh th c ph m, các cơ quan ki m tra ch t lư ng và an toàn th c ph m, các c s nghiên c u, tư v n và ào t o trong lĩnh v c th c ph m Tra c u tài li u là quá trình tìm tòi ki n th c qua các phương ti n như sách, báo, Internet…nh m t k t qu nào ó. Ki n th c ngành Ch bi n th c ph m r t a d ng, phong phú, có r t nhi u b môn òi h i tính th c t cao, do ó các ngu n sách v chuyên ngành, giáo trình cũng ph i thư ng xuyên thay i v i ki n th c hi n t i phù h p nhu c u c a nhà s d ng lao ng. có tài li u ph c v gi ng d y và h c t p, các giáo viên và sinh viên không ng ng tra c u tài li u b ng nhi u phương th c khác nhau như các sách thư vi n, thu th p và t ng h p các ki n th c t Internet… Tuy nhiên ki n th c tra c u các sách có thư vi n chưa c p nh t so v i ki n th c hi n t i. Do ó, v n s d ng các công c h tr tra c u tài li u trên Internet r t quan tr ng, c p nh t nh ng ki n th c m i, có th b sung cho tài li u gi ng d y và h c t p. Trong quá trình tra c u tài li u trên Internet, giáo viên và sinh viên thư ng g p khó khăn trong v n thu th p và t ng h p các ki n th c sao cho phù h p v i yêu c u s d ng, vì ki n th c sau khi tra c u r t nhi u, òi h i ph i t mình c và trích l c ra nh ng ki n th c liên quan n các n i dung c n tra c u, và các ki n th c này
- 3 không phân lo i theo các ch , th lo i. Và c bi t là khi nh p n i dung tra c u trên Internet thư ng x y ra hi n tư ng nh p nh ng. Nh p nh ng là hi n tư ng mơ h , l p nhòe v ý tư ng làm m t ranh gi i gi a cái này và cái n X lý nh p nh ng nghĩa c a t là m t trong nh ng v n ư c r t nhi u nhà nghiên c u trong lĩnh v c x lý ngôn ng t nhiên quan tâm n. V n này ư c nêu lên như m t bài toán riêng bi t l n u tiên là vào nh ng năm cu i th p k 40 c a th k 20 và ư c coi như là m t trong nh ng v n lâu i nh t c a lĩnh v c x lý ngôn ng t nhiên. Nh n ư c nhi u s quan tâm và t s m như v y là do x lý nh p nh ng nghĩa c a t óng vai trò quan tr ng trong r t nhi u các bài toán khác c a x lý ngôn ng t nhiên. Ta có th th y s xu t hi n c a h x lý nh p nh ng nghĩa c a t trong các h th ng tìm ki m thông tin, khai phá d li u… Và x lý nh p nh ng trong tra c u tài li u cũng ư c quan tâm, và c bi t là nh ng tài li u v ngành Ch bi n th c ph m Ví d : trong môn Công ngh ch bi n rau qu , n u nh p n i dung tra c u: “ch bi n rau qu ” này trên Internet s x y ra nh p nh ng trong t “ch bi n”, có th phân tích “ch bi n = ch t o + bi n hóa”, có th hi u là x lý, óng gói, có th hi u là chu n b s d ng ngay…, nên k t qu sau khi tra c u t Internet là r t nhi u. Do ó, c n ph i gi i thích ng nghĩa c a các t c n tra c u, c th là các t liên quan n ngành Ch bi n th c ph m và c n có m t công c h tr tra c u tài li u ngành này có th h n ch các hi n tư ng nh p nh ng x y ra Trong lu n văn này v i t a : “X lý nh p nh ng ti ng Vi t và ng d ng trong tra c u tài li u gi ng d y và h c t p”
- 4 Chúng tôi s tri n khai th c nghi m gi i pháp b ng cách xây d ng ng d ng x lý nh p nh ng trong tra c u tài li u gi ng d y và h c t p ngành Ch bi n th c ph m Trư ng Cao ng Lương Th c- Th c Ph m. 2. Ý nghĩa khoa h c và th c t - Ý nghĩa khoa h c V khoa h c, tài ã tìm hi u các hi n tư ng nh p nh ng trong ti ng Vi t, nh p nh ng trong tra c u tài li u. xu t gi i pháp x nh p nh ng trong tra c u. - Ý nghĩa th c t V th c ti n, tài ã v n d ng k thu t x lý nh p nh ng trong tra c u tài li u t ó, xây d ng ng d ng có tính kh thi, áp d ng lý thuy t vào th c t cu c s ng 3. M c tiêu nhi m v nghiên c u - Tìm hi u các hi n tư ng nh p nh ng trong ti ng Vi t - Phân tích h th ng, tìm hi u ho t ng v tra c u tài li u gi ng d y và h c t p ngành Ch bi n th c ph m - xu t mô hình x lý nh p nh ng trong tra c u tài li u gi ng d y và h c t p ngành Ch bi n th c ph m - Cài t th nghi m - ánh giá k t qu 4. i tư ng và ph m vi nghiên c u - Tìm hi u các hi n tư ng nh p nh ng trong ti ng Vi t - Nghiên c u mô hình và phương pháp x lý nh p nh ng trong tra c u tài li u gi ng d y và h c t p ngành ch bi n th c ph m - Tài li u ph c v cho i tư ng là h c sinh sinh viên, giáo viên trong trư ng Cao ng Lương Th c-Th c Ph m
- 5 5. Phương pháp nghiên c u - Phương pháp nghiên c u tài li u: • Ti n hành nghiên c u, thu th p tài li u liên quan v ng pháp ti ng Vi t • Tìm hi u các hi n tư ng nh p nh ng trong ti ng Vi t • Nghiên c u ngôn ng l p trình JSP, SQL Server 2008 - Phương pháp th c nghi m: gi i quy t bài toán x lý nh p nh ng trong tra c u tài li u gi ng d y và h c t p ngành Ch bi n th c ph m t i trư ng Cao ng Lương Th c-Th c Ph m 6. B c c lu n văn Chương 1: Tìm hi u các hi n tư ng nh p nh ng trong ti ng Vi t. Trình bày khái quát v X lý ngôn ng t nhiên, các giai o n hình thành ti ng Vi t, c i m c a ti ng Vi t, tính nh p nh ng trong ti ng Vi t. Chương 2: Phân tích và thi t k h th ng x lý nh p nh ng. ưa ra mô hình x lý nh p nh ng, phân tích và thi t k h th ng x lý nh p nh ng trong tra c u tài li u gi ng d y và h c t p t i Trư ng Cao ng Lương Th c-Th c Ph m Chương 3: ng d ng x lý nh p nh ng trong tra c u tài li u gi ng d y và h c t p ngành ch bi n th c ph m. Cài t, ki m th chương trình x lý nh p nh ng trong tra c u tài li u gi ng d y và h c t p ngành Ch bi n th c ph m
- 6 CHƯƠNG 1 TÌM HI U CÁC HI N TƯ NG NH P NH NG TRONG TI NG VI T Trong chương này gi i thi u khái quát v X lý ngôn ng t nhiên, các giai o n hình thành ti ng Vi t, c i m c a ti ng Vi t, tính nh p nh ng trong ti ng Vi t. T ây chúng ta ưa ra các gi i quy t tính nh p nh ng ti ng Vi t trong tra c u tài li u. 1.1. X LÝ NGÔN NG T NHIÊN VÀ CÁC BÀI TOÁN NG D NG X lý ngôn ng t nhiên (natural language processing – NLP) là m t lĩnh v c nghiên c u c a Trí tu nhân t o nh m xây d ng m t h th ng x lý cho máy tính, làm cho máy tính có th “hi u” ư c ngôn ng c a con ngư i g m c ngôn ng nói và vi t. Nghĩa là, khi chúng ta nói hay vi t thì máy tính hi u ư c là chúng ta ang nói gì, vi t gì. Không ch v i m t lo i ngôn ng c a m t dân t c, c a m t qu c gia máy tính có th hi u ư c, máy tính có th hi u ư c ngôn ng c a t t c các dân t c, các qu c gia trên th gi i. Nh ó, m i ngư i trên th gi i d a vào máy tính cũng có th hi u, giao ti p ư c v i nhau mà không c n h c, hi u ngôn ng c a nhau Các bài toán ng d ng NLP là m t lĩnh v c nghiên c u nh m giúp cho các h th ng máy tính hi u và x lý ư c ngôn ng con ngư i. Các bài toán và ng d ng liên quan nv n x lý ngôn ng t nhiên hi n nay có r t nhi u, dư i ây là m t s bài toán và ng d ng thư ng g p nh t. - Nh n d ng ch vi t - Nh n d ng ti ng nói - T ng h p ti ng nói - D ch t ng (machine translate)
- 7 - Tìm ki m thông tin - Tóm t t văn b n - Khai phá d li u (data mining) và phát hi n tri th c 1.2. T NG QUAN V TI NG VI T 1.2.1. Quá trình hình thành ti ng Vi t Ti ng Vi t có ngu n g c r t c xưa và ã tr i qua m t quá trình phát tri n lâu dài. a. Ti ng Vi t giai o n dùng ch Nôm b. Ti ng Vi t giai o n dùng ch qu c ng c. T Cách M ng Tháng 8 n nay Cách M ng Tháng 8 thành công, Vi t Nam ã quy t nh dùng Ti ng Vi t m i c p h c, b c h c, m i ngành ho t ng. 1.2.2. Âm ti t và c i m âm ti t trong ti ng Vi t a. nh nghĩa Âm ti t là ơn v phát âm t nhiên nh nh t trong ngôn ng . Trong ti ng Vi t, m t âm ti t bao gi cũng ư c phát ra v i m t thanh i u, và tách r i v i âm ti t khác b ng m t kho ng tr ng. M i âm ti t ti ng Vi t ư c ghi thành m t “ch ”. Ví d : “hoa h c trò” g m 3 ch ho c 3 âm ti t. Trong Ti ng Vi t có 29 ch cái, g m 17 ph âm và 12 nguyên âm. Nguyên âm: a, ă, â, e, ê, i, o, ô, ơ, u, ư, y. Ph âm: b, c, d, , g, h, k, l, m, n, p, q, r, s, t, v, x Ngoài ra còn có các bán nguyên âm và ph âm ghép như sau: Bán nguyên âm: oa, oe, uy Ph âm ghép như sau: ch, gh, kh, ng, ngh, nh, ph, th, tr, gi và qu b. c i m âm ti t Ti ng Vi t - Có tính c l p cao
- 8 - Có kh năng bi u hi n ý nghĩa - Có m t c u trúc ch t ch 1.2.3. T và phân lo i t trong ti ng Vi t a. nh nghĩa T là ơn v nh nh t có nghĩa, có k t c u v ng âm b n v ng, hoàn ch nh, có ch c năng g i tên, ư c v n d ng c l p, tái hi n t do trong l i nói t o câu Ví d : nhà, ngư i, áo, cũng, s , thì,... ư ng s t, sân bay, trư ng h c… b. Phân lo i t trong ti ng Vi t V m t c u t o t ti ng Vi t ư c phân lo i theo nhi u d ng khác nhau, v i nh ng tiêu chí khác nhau, - T ơn - T ghép - T láy - Nh ng t g c thu n Vi t: - Nh ng t vay mư n g c Hán 1.3. X LÝ TI NG VI T TRÊN MÁY TÍNH H u h t các máy tính cá nhân Vi t Nam u cài t nh ng ph n m m h tr ti ng Vi t ví d như phông ch 1.3.1. T ng quan các b mã ti ng Vi t 1.3.2. M t s c i m c a font Unicode 1.3.3. Ti ng Vi t trong b mã Unicode 1.4. M T S GI I PHÁP XÁC NH T TRONG TI NG VI T 1.4.1. Gi i pháp xác nh danh t riêng 1.4.2. Gi i pháp xác nh danh t láy
- 9 1.5. HI N TƯ NG NH P NH NG TRONG TI NG VI T Ti ng Vi t là m t th ti ng a nghĩa, m t t có th mang nhi u nghĩa, do ó thư ng x y ra các hi n tư ng nh p nh ng trong khi nói, khi vi t… Nh p nh ng là hi n tư ng mơ h , l p nhòe v ý tư ng làm m t ranh gi i gi a cái này và cái n . Nh p nh ng x y ra trên h u h t ngôn ng t nhiên ti ng Vi t không tránh kh i quy lu t chung. Nh p nh ng trong ngôn ng h c là hi n tư ng thư ng g p k c trong giao ti p hàng ngày. Hình 1.5 Các hi n tư ng nh p nh ng ti ng Vi t 1.5.1. Nh p nh ng khi nói - Nh p nh ng v t lo i - Nh p nh ng khi phát âm - Nh p nh ng v t ng âm và khác nghĩa - Nh p nh ng v t ng nghĩa nhưng khác âm 1.5.2. Nh p nh ng khi vi t - Nh p nh ng khi vi t ti ng Vi t không d u - Nh p nh ng v l i chính t khi vi t
- 10 - Nh p nh ng v vi c b d u - Nh p nh ng v ranh gi i t 1.5.3. Nh p nh ng v c ch 1.5.4. Nh p nh ng v s v n d ng 1.6. HI N TƯ NG NH P NH NG TRONG TRA C U TÀI LI U Tra c u tài li u là gi i pháp nh m tìm ra các gi i pháp giúp ngư i s d ng có th tìm th y các thông tin mình c n trong m t kh i lư ng l n d li u Qua phân tích hi n tư ng nh p nh ng trong ti ng Vi t ta th y r ng i u ó không th không x y ra trong tra c u tài li u, trong quá trình tra c u thư ng x y ra tư ng nh p nh ng các quá trình sau: - Nh p nh ng trong lúc nh p yêu c u tra c u tài li u + Nh p nh ng do ch n sai ch tra c u + Nh p nh ng do ch n sai b ng mã + Nh p nh ng khi ta nh p t vi t t t - Nh p nh ng trong lúc tra c u tài li u - Nh p nh ng khi phân lo i tài li u K T LU N CHƯƠNG 1 Chương này t p trung, gi i thi u khái quát v X lý ngôn ng t nhiên, t ng quan v ti ng Vi t, các giai o n hình thành ti ng Vi t, c i m c a ti ng Vi t, tính nh p nh ng trong ti ng Vi t. T ây chúng ta ưa ra các gi i quy t tính nh p nh ng ti ng Vi t trong tra c u tài li u. Ph n ti p theo c a lu n văn này ó là phân tích bài toán x lý nh p nh ng trong tra c u tài li u ph c v gi ng d y và h c t p ngành Ch bi n th c ph m.
- 11 CHƯƠNG 2 PHÂN TÍCH VÀ THI T K H TH NG X LÝ NH P NH NG 2.1. PHÂN TÍCH HI N TR NG 2.1.1. Gi i thi u Ngành Ch bi n th c ph m Trư ng Cao ng Lương Th c-Th c Ph m a. Gi i thi u Trư ng Cao ng Lương Th c-Th c Ph m Trư ng Cao ng Lương Th c-Th c Ph m là trư ng công l p n m trong h th ng giáo d c i h c Vi t Nam, tr c thu c B Nông nghi p và PTNT. Tr i qua hơn 35 năm xây d ng và phát tri n, Trư ng luôn là m t cơ s ào t o n ng c t, cung c p ngu n nhân l c cho s phát tri n c a ngành khu v c mi n Trung-Tây Nguyên và trong c nư c, góp ph n th c hi n công nghi p hóa, hi n i hóa t nư c. Trư ng ào t o a d ng nhi u ngành ngh b c Cao ng, Trung c p, trong ó ngành ào t o tr ng tâm c a nhà trư ng: ngành Ch bi n th c ph m, ngành ã ào t o ngu n nhân l c l n cho các xư ng, xí nghi p, công ty ch bi n th c ph m… b. Gi i thi u ngành Ch bi n th c ph m Ngành Ch bi n th c ph m bao g m nh ng ki n th c cơ b n v nguyên li u, kĩ thu t ch bi n m t s s n ph m t rau qu , m t s s n ph m th y s n, bánh k o, bia, rư u, nư c gi i khát. C th là c u t o, thành ph n hóa h c c a nguyên li u và nh hư ng c a nh ng thành ph n n quá trình ch bi n; quy trình công ngh ch bi n, yêu c u công ngh và các thông s kĩ thu t c n thi t c a t ng quá trình, nh ng y u t nh hư ng n quá trình ch bi n m t s s n ph m t rau qu , s n ph m th y s n, bánh k o, bia, rư u, nư c gi i khát ánh giá ư c ch t lư ng s n ph m
- 12 2.1.2. Tình hình th c t S lư ng h c sinh trúng tuy n vào ngành Ch bi n th c ph m c a trư ng trong nh ng năm g n ây ch t 2/3 s lư ng ch tiêu c a nhà trư ng. Hình 2.1 Bi u sinh viên trúng tuy n Ngành Ch bi n th c ph m Các i tư ng thư ng xuyên tra c u tài li u trong thư vi n ó là: giáo viên và sinh viên. - i v i các giáo viên, c bi t là các giáo viên m i vào trư ng, kinh nghi m gi ng d y còn chưa nhi u (t 1 3 năm), nhưng năm nào cũng ph i t so n bài gi ng các môn chuyên ngành ph c v cho quá trình gi ng d y, theo yêu c u c a nhà trư ng các bài gi ng ph i luôn c p nh t th c t , có như v y m i áp ng ư c vi c h c c a h c sinh sinh viên và tuy n d ng c a nhà lao ng. Theo th ng kê c a thư vi n, v n mư n sách chuyên ngành c a các giáo viên h ng năm c a thư vi n ngày càng gi m, m c dù năm nào cũng ph i so n giáo trình, giáo án, tài li u m i, b sung Hình 2.2 Bi u s lư ng giáo viên mư n sách ngành Ch bi n
- 13 c thù các môn c a ngành Ch bi n th c ph m c n nhi u ki n th c th c t , mà các giáo viên tr ch y u l y các ngu n ki n th c t sách thư vi n là chưa , ngoài ra còn tìm ki m, tra c u các tài li u trên Internet, tuy nhiên quá trình tra c u tài li u không ph i lúc nào cũng cho nh ng k t qu như mong mu n Ví d : trong môn ch bi n rau qu , các giáo viên tra c u b ng công c Google, gõ t khóa: ch bi n rau qu filetype:doc (nghĩa là các giáo viên mu n tìm các tài li u có d ng file doc liên quan t i v n nói trên) K t qu nh n ư c r t nhi u, giáo viên c n có th i gian dài ch n l c các tài li u có liên quan, ôi lúc l i không tìm ư c tài li u c n tìm. Hình 2.3 K t qu tìm ki m Google - H u h t các giáo viên và sinh viên u tra c u tài li u có s n trên m ng Internet, như Google, Yahoo...Khi tra c u trên Internet, s dĩ k t qu tìm ki m quá nhi u như v y là do x y ra nh p nh ng trong
- 14 t khóa tìm ki m. C n ph i gi i thích ng nghĩa các t ti ng Vi t cho úng có th x lý các hi n tư ng nh p nh ng, h n ch ư c nh ng k t qu tra c u không úng v i yêu c u. Do ó, thu n l i cho vi c gi ng d y và h c t p c a các giáo viên và sinh viên vi c tra c u tài li u ti ng Vi t liên quan n ngành Ch bi n thì ph i tìm chính xác nh ng t khi ngư i s d ng nh p vào ô tra c u, tìm úng ng vì ti ng Vi t là lo i ti ng ph c t p. 2.2. XU T MÔ HÌNH GI I PHÁP Hình 2.5 Mô hình gi i pháp
- 15 2.3. TRI N KHAI THI T K H TH NG 2.3.1. Xây d ng ngu n d li u tra c u Tài li u các giáo viên và sinh viên c n tra c u ó là tài li u thu th p t sách, báo thư vi n, Internet và các ki n th c, giáo trình c a các giáo viên có kinh nghi m Trên cơ s ó, chúng ta t xây d ng ngu n d li u như sau: - Các ngu n d li u t Internet, sách báo: s ư c l yt ng t Internet thông qua chương trình t xây d ng, các thông tin l y v ã ư c phân lo i theo m c và lưu tr trong CSDL (thông tin gì thì s lưu vào CSDL theo m c ã ư c xây d ng s n) - Ngu n d li u nh p b ng tay: ó là các giáo trình, giáo án, cương… c a các th y cô có kinh nghi m trong trư ng cũng như các trư ng khác có cùng ngành Ch bi n th c ph m i v i ngu n d li u này, chúng ta s t phân lo i s n. Xây d ng ngu n d li u tra c u òi h i chúng ta ph i t p trung nhi u công s c, th i gian u tư, ch n l c, có như v y k t qu tra c u tài li u m i t hi u qu t t nh t i v i ngư i s d ng 2.3.2. Xây d ng CSDL t v ng lĩnh v c ch bi n th c ph m Trư c tiên tìm hi u các môn chuyên ngành liên quan n ngành Ch bi n th c ph m như: công ngh s n xu t bia, công ngh s n xu t ư ng, công ngh s n xu t s a và các s n ph m t s a, công ngh s n xu t nư c gi i khát, công ngh s n xu t bánh k o, công ngh ch bi n th y s n, công ngh ch bi n rau qu , dinh dư ng và an toàn th c ph m, hóa h c và ph gia th c ph m, thi t b th c ph m, công ngh ch bi n th c ph m, b o qu n th c ph m,
- 16 công ngh b o qu n và ch bi n lương th c, ki m nghi m lương th c th c ph m, qu n lý ch t lư ng th c ph m, bao bì th c ph m… Sau khi tìm hi u các môn này, ta s có các t khóa là tên các môn, d a vào ây xây d ng các t ơn, t ghép theo các t khóa liên quan này T o b ng trong CSDL lưu t t c các t ghép Ví d : có t ghép “ki m nghi m”, ngoài ra còn có các t ghép như là: ki m tra, ki m nh…ta s xây d ng trên cơ s các t ơn và các t ơn ghép thành các t ghép có nghĩa. 2.3.3. Thi t k h th ng a. Các tác nhân tham gia vào ng d ng Các tác nhân tham gia tr c ti p vào ng d ng là m t ngư i hay nhóm ngư i. i v i ng d ng x lý nh p nh ng trong tra c u tài li u gi ng d y và h c t p ngành ch bi n th c ph m thì tác nhân tham gia vào ng d ng bao g m: Ngư i s d ng: giáo viên, h c sinh sinh viên Ngư i qu n tr : + C p quy n s d ng cho ngư i dùng, s a ch a, b o m t h th ng… + C p nh p kho t i n, kho d li u b. Thi t k cơ s d li u Xây d ng m t kho t v ng g m các t ơn và t ghép mà m i t này ph i úng ng nghĩa c a ti ng Vi t tránh nh p nh ng v ng nghĩa ti ng Vi t; k thu t x lý nh p nh ng b t u t vi c phân tích ti ng Vi t t ơn v nh nh t là ký t , ti p n là t ơn, t ghép, ng và cu i cùng là câu. Ghép các nguyên âm và ph âm thành t ơn có nghĩa. T các t ơn ghép thành t ghép. T các t ơn và các t ghép, ghép l i thành ng , thành câu.
- 17 T ây lưu các t ã ghép úng ng nghĩa vào t p tin CSDL. Xây d ng k thu t x lý nh p nh ng cho các yêu c u tra c u b ng ti ng Vi t, tránh nh ng l i nh p nh ng trong ti ng Vi t. Do ó, thi t k cơ s g m có 2 b ng như sau: TUGOC và TUGHEP B ng 2.2 TUGOC Tên trư ng Ki u d li u Mô t Mã t g c (khóa MaTuGoc Int chính) TuGoc nvarchar(50) T g c B ng 2.3 TUGHEP Tên trư ng Ki u d li u Mô t Mã t g c (t ơn) MaTuGoc Int (khóa ngo i) T ghép (khóa TuGhep nvarchar(50) ngo i) D li u cho quá trình x lý ph i có các nguyên âm ghép v i ph âm cùng các d u thanh t o thành m t t ơn. T nh ng t ơn này ghép l i thành t ghép. tránh nh p nh ng trong ti ng Vi t là t ơn và t ghép sau khi ghép xong ph i úng ng nghĩa c a ti ng Vi t và lưu l i dư i d ng t p tin text. T p tin text này chính là t i n g m các t ơn và t ghép.
- 18 T các t ơn và t ghép ã ki m tra úng ng nghĩa, sau ó tách t ơn theo t ơn, t ghép theo t ghép và ghi vào CSDL nh m ph c v cho vi c tra c u tài li u. V i kho d li u 1000 t ghép t m ph c v cho vi c tra c u tài li u Ngành Ch bi n th c ph m ư c lưu trong CSDL SQL Server. c. Thi t k các m i quan h gi a các b ng Chúng ta có 2 b ng, m i quan h c a chúng như sau: Hình 2.6 Mô hình quan h th c th 2.4. K THU T X LÝ NH P NH NG TRONG TRA C U TÀI LI U Mu n xây d ng k thu t x lý nh p nh ng trong tra c u tài li u ph c v gi ng d y và h c t p ph i áp ng nh ng yêu c u: xây d ng m t kho t i n t g m các t ơn và t ghép mà m i t này ph i úng ng nghĩa c a ti ng Vi t tránh nh p nh ng v ng nghĩa ti ng Vi t. T kho t i n này xây d ng k thu t x lý nh p nh ng trong tra c u tài li u. K thu t x lý nh p nh ng b t u t vi c phân tích ti ng Vi t t ơn v nh nh t là ký t , ti p n là t ơn, t ghép, ng và cu i cùng là câu. Tr i qua các bư c sau:
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Luận văn Thạc sĩ Quản lý công: Quản lý văn bản điện tử tại Ủy ban Nhân dân quận Hoàn Kiếm, thành phố Hà Nội
88 p | 227 | 44
-
Tóm tắt Luận văn Thạc sĩ: Xử phạt vi phạm hành chính trong lĩnh vực y tế ở Việt Nam hiện nay
7 p | 212 | 41
-
Luận văn Thạc sĩ Tâm lý học: Ảnh hưởng của cảm xúc giận dữ lên hành vi ứng xử của người lao động trí thức trẻ tuổi tại thành phố Hồ Chí Minh
150 p | 183 | 40
-
Tóm tắt luận văn thạc sĩ kỹ thuật: Nghiên cứu xây dựng chương trình tích hợp xử lý chữ viết tắt, gõ tắt
26 p | 330 | 35
-
Tóm tắt Luận văn Thạc sĩ Vật lý: Cường độ chuyển dời và mật độ mức của hạt nhân 52V
41 p | 256 | 32
-
Luận văn thạc sĩ Quản lý công: Văn hóa ứng xử của công chức tại bộ phận một cửa Ủy ban nhân dân Quận Tây Hồ, Thành phố Hà Nội
119 p | 120 | 26
-
Luận văn Thạc sĩ Quản lý giáo dục: Quản lý giáo dục kỹ năng sống thông qua hoạt động trải nghiệm cho học sinh trung học cơ sở huyện Đắk Glong, tỉnh Đắk Nông
103 p | 69 | 18
-
Luận văn Thạc sĩ Vật lý: Nghiên cứu chế tạo và khảo sát tính chất vật liệu quang xúc tác TiO2/MoS2/Au ứng dụng trong phản ứng tách nước
67 p | 56 | 12
-
Luận văn Thạc sĩ Quản lý công: Quản lý nhà nước về chất thải rắn sinh hoạt tại Việt Nam
151 p | 39 | 11
-
Luận văn Thạc sĩ Vật lý chất rắn: Nghiên cứu chế tạo và khảo sát tính chất của vật liệu nano W03 và W03 - Au cho ứng dụng quang xúc tác vùng ánh sáng nhìn thấy
72 p | 16 | 9
-
Luận văn Thạc sĩ Quản lý công: Tổ chức thực hiện chính sách về đào tạo, bồi dưỡng đối với công chức, viên chức của Trung ương Hội Liên hiệp Phụ nữ Việt Nam
104 p | 12 | 6
-
Luận văn Thạc sĩ Vật lý: Khảo sát phổ kế năng lượng - Thời gian sử dụng đầu dò bán dẫn HPGe
70 p | 87 | 5
-
Luận văn Thạc sĩ: Xử lý thông tin và truyền thông: Định vị trong tính toán khắp nơi
94 p | 47 | 4
-
Luận văn Thạc sĩ Quản trị kinh doanh: Giải pháp xử lý nợ xấu tại Ngân hàng thương mại Cổ phần Việt Nam Thịnh Vượng chi nhánh Đà Nẵng
100 p | 6 | 4
-
Tóm tắt Luận văn Thạc sĩ Quản lý công: Xử lý vi phạm hành chính trong lĩnh vực môi trƣờng - từ thực tiễn quận Long Biên, thành phố Hà Nội
25 p | 39 | 2
-
Tóm tắt luận văn Thạc sĩ Kinh tế: Giải pháp hạn chế và xử lý nợ xấu tại Ngân hàng Nông nghiệp và Phát triển nông thôn tỉnh Gia Lai
24 p | 6 | 2
-
Luận văn Thạc sĩ Quản lý giáo dục: Quản lý xây dựng văn hóa ứng xử của học sinh tại các trường trung học cơ sở huyện Chư Sê tỉnh Gia Lai
133 p | 2 | 1
-
Luận văn Thạc sĩ Quản lý giáo dục: Quản lý xây dựng văn hóa ứng xử ở các trường tiểu học thành phố Vĩnh Long tỉnh Vĩnh Long
147 p | 3 | 1
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn