intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn thạc sĩ: Xử lý nhập nhằng tiếng Việt và ứng dụng trong tra cứu tài liệu phục vụ giảng dạy và học tập

Chia sẻ: Sdfas Vfdtg | Ngày: | Loại File: PDF | Số trang:26

95
lượt xem
9
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Xử lý nhập nhằng tiếng Việt và ứng dụng trong tra cứu tài liệu phục vụ giảng dạy và học tập nhằm vận dụng kỹ thuật nhập nhằng trong tra cứu tài liệu để xây dựng ứng dụng tính khả thi, áp dụng lý thuyết vào cuộc sống.

Chủ đề:
Lưu

Nội dung Text: Luận văn thạc sĩ: Xử lý nhập nhằng tiếng Việt và ứng dụng trong tra cứu tài liệu phục vụ giảng dạy và học tập

  1. B GIÁO D C VÀ ÀO T O I H C À N NG ----- ----- PH M TH THÙY LINH X LÝ NH P NH NG TI NG VI T VÀ NG D NG TRONG TRA C U TÀI LI U PH C V GI NG D Y VÀ H C T P Chuyên ngành: KHOA H C MÁY TÍNH Mã s : 60.48.01 TÓM T T LU N VĂN TH C SĨ K THU T à N ng - Năm 2013
  2. Công trình ư c hoàn thành t i I H C À N NG ---- ---- Ngư i hư ng d n khoa h c: PGS.TS. PHAN HUY KHÁNH Ph n bi n 1: TS. HUỲNH H U HƯNG Ph n bi n 2: TS. HOÀNG TH LANG GIAO Lu n văn ã ư c b o v t i H i ng ch m Lu n văn t t nghi p th c sĩ k thu t t i i h c à N ng vào ngày 23 tháng 02 năm 2013 Có th tìm hi u lu n văn t i: - Trung tâm Thông tin -H c li u, i h c à N ng; - Trung tâm H c li u, i h c Bách Khoa
  3. 1 M U 1. Lý do ch n tài Trong th i i hi n nay, công ngh thông tin ang tr thành nhân t quan tr ng cho s phát tri n kinh t - xã h i. Vi c ng d ng công ngh thông tin ngày càng tr nên ph bi n r ng rãi. M i lĩnh v c, m i s n ph m trong xã h i u mang d u n c a công ngh thông tin. Hi n nay, nhu c u tra c u thông tin h u ích r t c n thi t i v i m i ngư i, có th tra c u thông tin trên sách báo, truy n thông…, nh t là th i i m bùng n thông tin như hi n nay: thông tin thay i t ng ngày, t ng gi , luôn luôn c p nh p thông tin, tra c u thông tin trên Internet ư c m i ngư i quan tâm. Công c tra c u ch y u trên Internet s d ng ngôn ng Châu Âu (ti ng Anh, ti ng Pháp…), i v i ti ng Vi t các công c này tra c u tìm ki m kém hi u qu , b i vì ti ng Vi t là th ti ng a nghĩa, m t t thư ng có nhi u hơn m t nghĩa, r t d hi u nh m vì có tính nh p nh ng cao. Vi c v n d ng công ngh thông tin vào ngành Giáo D c không còn xa l , h u như t t c các trư ng h c u ng d ng tin h c vào gi ng d y và h c t p. Trư ng Cao ng Lương Th c-Th c Ph m Thành ph à N ng là trư ng tr ng i m c a B Nông nghi p và Phát tri n nông thôn. Trư ng ào t o a d ng nhi u ngành ngh b c Cao ng, Trung c p, trong ó ngành ào t o tr ng tâm c a nhà trư ng: ngành Ch bi n th c ph m, ngành ã ào t o ngu n nhân l c l n cho các xư ng, xí nghi p, công ty ch bi n th c ph m… Ngành Ch bi n th c ph m bao g m nh ng ki n th c cơ b n v nguyên li u, kĩ thu t ch bi n m t s s n ph m t rau qu , th y s n, bánh k o, bia, rư u, nư c gi i khát; quy trình công ngh ch bi n, yêu c u công ngh và các thông s kĩ thu t c n thi t c a t ng
  4. 2 quá trình, nh ng y u t nh hư ng n quá trình ch bi n m t s s n ph m t rau qu , s n ph m th y s n, bánh k o, bia, rư u, nư c gi i khát ánh giá ư c ch t lư ng s n ph m Ngành Ch bi n th c ph m b c cao ng ư c ào t o trong 3 năm, sinh viên sau khi t t nghi p có th m nh n các công vi c c a cán b k thu t, t trư ng s n xu t, trư ng ca... các dây chuy n s n xu t, ch bi n th c ph m t i các c s ch bi n, b o qu n và kinh doanh th c ph m, các cơ quan ki m tra ch t lư ng và an toàn th c ph m, các c s nghiên c u, tư v n và ào t o trong lĩnh v c th c ph m Tra c u tài li u là quá trình tìm tòi ki n th c qua các phương ti n như sách, báo, Internet…nh m t k t qu nào ó. Ki n th c ngành Ch bi n th c ph m r t a d ng, phong phú, có r t nhi u b môn òi h i tính th c t cao, do ó các ngu n sách v chuyên ngành, giáo trình cũng ph i thư ng xuyên thay i v i ki n th c hi n t i phù h p nhu c u c a nhà s d ng lao ng. có tài li u ph c v gi ng d y và h c t p, các giáo viên và sinh viên không ng ng tra c u tài li u b ng nhi u phương th c khác nhau như các sách thư vi n, thu th p và t ng h p các ki n th c t Internet… Tuy nhiên ki n th c tra c u các sách có thư vi n chưa c p nh t so v i ki n th c hi n t i. Do ó, v n s d ng các công c h tr tra c u tài li u trên Internet r t quan tr ng, c p nh t nh ng ki n th c m i, có th b sung cho tài li u gi ng d y và h c t p. Trong quá trình tra c u tài li u trên Internet, giáo viên và sinh viên thư ng g p khó khăn trong v n thu th p và t ng h p các ki n th c sao cho phù h p v i yêu c u s d ng, vì ki n th c sau khi tra c u r t nhi u, òi h i ph i t mình c và trích l c ra nh ng ki n th c liên quan n các n i dung c n tra c u, và các ki n th c này
  5. 3 không phân lo i theo các ch , th lo i. Và c bi t là khi nh p n i dung tra c u trên Internet thư ng x y ra hi n tư ng nh p nh ng. Nh p nh ng là hi n tư ng mơ h , l p nhòe v ý tư ng làm m t ranh gi i gi a cái này và cái n X lý nh p nh ng nghĩa c a t là m t trong nh ng v n ư c r t nhi u nhà nghiên c u trong lĩnh v c x lý ngôn ng t nhiên quan tâm n. V n này ư c nêu lên như m t bài toán riêng bi t l n u tiên là vào nh ng năm cu i th p k 40 c a th k 20 và ư c coi như là m t trong nh ng v n lâu i nh t c a lĩnh v c x lý ngôn ng t nhiên. Nh n ư c nhi u s quan tâm và t s m như v y là do x lý nh p nh ng nghĩa c a t óng vai trò quan tr ng trong r t nhi u các bài toán khác c a x lý ngôn ng t nhiên. Ta có th th y s xu t hi n c a h x lý nh p nh ng nghĩa c a t trong các h th ng tìm ki m thông tin, khai phá d li u… Và x lý nh p nh ng trong tra c u tài li u cũng ư c quan tâm, và c bi t là nh ng tài li u v ngành Ch bi n th c ph m Ví d : trong môn Công ngh ch bi n rau qu , n u nh p n i dung tra c u: “ch bi n rau qu ” này trên Internet s x y ra nh p nh ng trong t “ch bi n”, có th phân tích “ch bi n = ch t o + bi n hóa”, có th hi u là x lý, óng gói, có th hi u là chu n b s d ng ngay…, nên k t qu sau khi tra c u t Internet là r t nhi u. Do ó, c n ph i gi i thích ng nghĩa c a các t c n tra c u, c th là các t liên quan n ngành Ch bi n th c ph m và c n có m t công c h tr tra c u tài li u ngành này có th h n ch các hi n tư ng nh p nh ng x y ra Trong lu n văn này v i t a : “X lý nh p nh ng ti ng Vi t và ng d ng trong tra c u tài li u gi ng d y và h c t p”
  6. 4 Chúng tôi s tri n khai th c nghi m gi i pháp b ng cách xây d ng ng d ng x lý nh p nh ng trong tra c u tài li u gi ng d y và h c t p ngành Ch bi n th c ph m Trư ng Cao ng Lương Th c- Th c Ph m. 2. Ý nghĩa khoa h c và th c t - Ý nghĩa khoa h c V khoa h c, tài ã tìm hi u các hi n tư ng nh p nh ng trong ti ng Vi t, nh p nh ng trong tra c u tài li u. xu t gi i pháp x nh p nh ng trong tra c u. - Ý nghĩa th c t V th c ti n, tài ã v n d ng k thu t x lý nh p nh ng trong tra c u tài li u t ó, xây d ng ng d ng có tính kh thi, áp d ng lý thuy t vào th c t cu c s ng 3. M c tiêu nhi m v nghiên c u - Tìm hi u các hi n tư ng nh p nh ng trong ti ng Vi t - Phân tích h th ng, tìm hi u ho t ng v tra c u tài li u gi ng d y và h c t p ngành Ch bi n th c ph m - xu t mô hình x lý nh p nh ng trong tra c u tài li u gi ng d y và h c t p ngành Ch bi n th c ph m - Cài t th nghi m - ánh giá k t qu 4. i tư ng và ph m vi nghiên c u - Tìm hi u các hi n tư ng nh p nh ng trong ti ng Vi t - Nghiên c u mô hình và phương pháp x lý nh p nh ng trong tra c u tài li u gi ng d y và h c t p ngành ch bi n th c ph m - Tài li u ph c v cho i tư ng là h c sinh sinh viên, giáo viên trong trư ng Cao ng Lương Th c-Th c Ph m
  7. 5 5. Phương pháp nghiên c u - Phương pháp nghiên c u tài li u: • Ti n hành nghiên c u, thu th p tài li u liên quan v ng pháp ti ng Vi t • Tìm hi u các hi n tư ng nh p nh ng trong ti ng Vi t • Nghiên c u ngôn ng l p trình JSP, SQL Server 2008 - Phương pháp th c nghi m: gi i quy t bài toán x lý nh p nh ng trong tra c u tài li u gi ng d y và h c t p ngành Ch bi n th c ph m t i trư ng Cao ng Lương Th c-Th c Ph m 6. B c c lu n văn Chương 1: Tìm hi u các hi n tư ng nh p nh ng trong ti ng Vi t. Trình bày khái quát v X lý ngôn ng t nhiên, các giai o n hình thành ti ng Vi t, c i m c a ti ng Vi t, tính nh p nh ng trong ti ng Vi t. Chương 2: Phân tích và thi t k h th ng x lý nh p nh ng. ưa ra mô hình x lý nh p nh ng, phân tích và thi t k h th ng x lý nh p nh ng trong tra c u tài li u gi ng d y và h c t p t i Trư ng Cao ng Lương Th c-Th c Ph m Chương 3: ng d ng x lý nh p nh ng trong tra c u tài li u gi ng d y và h c t p ngành ch bi n th c ph m. Cài t, ki m th chương trình x lý nh p nh ng trong tra c u tài li u gi ng d y và h c t p ngành Ch bi n th c ph m
  8. 6 CHƯƠNG 1 TÌM HI U CÁC HI N TƯ NG NH P NH NG TRONG TI NG VI T Trong chương này gi i thi u khái quát v X lý ngôn ng t nhiên, các giai o n hình thành ti ng Vi t, c i m c a ti ng Vi t, tính nh p nh ng trong ti ng Vi t. T ây chúng ta ưa ra các gi i quy t tính nh p nh ng ti ng Vi t trong tra c u tài li u. 1.1. X LÝ NGÔN NG T NHIÊN VÀ CÁC BÀI TOÁN NG D NG X lý ngôn ng t nhiên (natural language processing – NLP) là m t lĩnh v c nghiên c u c a Trí tu nhân t o nh m xây d ng m t h th ng x lý cho máy tính, làm cho máy tính có th “hi u” ư c ngôn ng c a con ngư i g m c ngôn ng nói và vi t. Nghĩa là, khi chúng ta nói hay vi t thì máy tính hi u ư c là chúng ta ang nói gì, vi t gì. Không ch v i m t lo i ngôn ng c a m t dân t c, c a m t qu c gia máy tính có th hi u ư c, máy tính có th hi u ư c ngôn ng c a t t c các dân t c, các qu c gia trên th gi i. Nh ó, m i ngư i trên th gi i d a vào máy tính cũng có th hi u, giao ti p ư c v i nhau mà không c n h c, hi u ngôn ng c a nhau Các bài toán ng d ng NLP là m t lĩnh v c nghiên c u nh m giúp cho các h th ng máy tính hi u và x lý ư c ngôn ng con ngư i. Các bài toán và ng d ng liên quan nv n x lý ngôn ng t nhiên hi n nay có r t nhi u, dư i ây là m t s bài toán và ng d ng thư ng g p nh t. - Nh n d ng ch vi t - Nh n d ng ti ng nói - T ng h p ti ng nói - D ch t ng (machine translate)
  9. 7 - Tìm ki m thông tin - Tóm t t văn b n - Khai phá d li u (data mining) và phát hi n tri th c 1.2. T NG QUAN V TI NG VI T 1.2.1. Quá trình hình thành ti ng Vi t Ti ng Vi t có ngu n g c r t c xưa và ã tr i qua m t quá trình phát tri n lâu dài. a. Ti ng Vi t giai o n dùng ch Nôm b. Ti ng Vi t giai o n dùng ch qu c ng c. T Cách M ng Tháng 8 n nay Cách M ng Tháng 8 thành công, Vi t Nam ã quy t nh dùng Ti ng Vi t m i c p h c, b c h c, m i ngành ho t ng. 1.2.2. Âm ti t và c i m âm ti t trong ti ng Vi t a. nh nghĩa Âm ti t là ơn v phát âm t nhiên nh nh t trong ngôn ng . Trong ti ng Vi t, m t âm ti t bao gi cũng ư c phát ra v i m t thanh i u, và tách r i v i âm ti t khác b ng m t kho ng tr ng. M i âm ti t ti ng Vi t ư c ghi thành m t “ch ”. Ví d : “hoa h c trò” g m 3 ch ho c 3 âm ti t. Trong Ti ng Vi t có 29 ch cái, g m 17 ph âm và 12 nguyên âm. Nguyên âm: a, ă, â, e, ê, i, o, ô, ơ, u, ư, y. Ph âm: b, c, d, , g, h, k, l, m, n, p, q, r, s, t, v, x Ngoài ra còn có các bán nguyên âm và ph âm ghép như sau: Bán nguyên âm: oa, oe, uy Ph âm ghép như sau: ch, gh, kh, ng, ngh, nh, ph, th, tr, gi và qu b. c i m âm ti t Ti ng Vi t - Có tính c l p cao
  10. 8 - Có kh năng bi u hi n ý nghĩa - Có m t c u trúc ch t ch 1.2.3. T và phân lo i t trong ti ng Vi t a. nh nghĩa T là ơn v nh nh t có nghĩa, có k t c u v ng âm b n v ng, hoàn ch nh, có ch c năng g i tên, ư c v n d ng c l p, tái hi n t do trong l i nói t o câu Ví d : nhà, ngư i, áo, cũng, s , thì,... ư ng s t, sân bay, trư ng h c… b. Phân lo i t trong ti ng Vi t V m t c u t o t ti ng Vi t ư c phân lo i theo nhi u d ng khác nhau, v i nh ng tiêu chí khác nhau, - T ơn - T ghép - T láy - Nh ng t g c thu n Vi t: - Nh ng t vay mư n g c Hán 1.3. X LÝ TI NG VI T TRÊN MÁY TÍNH H u h t các máy tính cá nhân Vi t Nam u cài t nh ng ph n m m h tr ti ng Vi t ví d như phông ch 1.3.1. T ng quan các b mã ti ng Vi t 1.3.2. M t s c i m c a font Unicode 1.3.3. Ti ng Vi t trong b mã Unicode 1.4. M T S GI I PHÁP XÁC NH T TRONG TI NG VI T 1.4.1. Gi i pháp xác nh danh t riêng 1.4.2. Gi i pháp xác nh danh t láy
  11. 9 1.5. HI N TƯ NG NH P NH NG TRONG TI NG VI T Ti ng Vi t là m t th ti ng a nghĩa, m t t có th mang nhi u nghĩa, do ó thư ng x y ra các hi n tư ng nh p nh ng trong khi nói, khi vi t… Nh p nh ng là hi n tư ng mơ h , l p nhòe v ý tư ng làm m t ranh gi i gi a cái này và cái n . Nh p nh ng x y ra trên h u h t ngôn ng t nhiên ti ng Vi t không tránh kh i quy lu t chung. Nh p nh ng trong ngôn ng h c là hi n tư ng thư ng g p k c trong giao ti p hàng ngày. Hình 1.5 Các hi n tư ng nh p nh ng ti ng Vi t 1.5.1. Nh p nh ng khi nói - Nh p nh ng v t lo i - Nh p nh ng khi phát âm - Nh p nh ng v t ng âm và khác nghĩa - Nh p nh ng v t ng nghĩa nhưng khác âm 1.5.2. Nh p nh ng khi vi t - Nh p nh ng khi vi t ti ng Vi t không d u - Nh p nh ng v l i chính t khi vi t
  12. 10 - Nh p nh ng v vi c b d u - Nh p nh ng v ranh gi i t 1.5.3. Nh p nh ng v c ch 1.5.4. Nh p nh ng v s v n d ng 1.6. HI N TƯ NG NH P NH NG TRONG TRA C U TÀI LI U Tra c u tài li u là gi i pháp nh m tìm ra các gi i pháp giúp ngư i s d ng có th tìm th y các thông tin mình c n trong m t kh i lư ng l n d li u Qua phân tích hi n tư ng nh p nh ng trong ti ng Vi t ta th y r ng i u ó không th không x y ra trong tra c u tài li u, trong quá trình tra c u thư ng x y ra tư ng nh p nh ng các quá trình sau: - Nh p nh ng trong lúc nh p yêu c u tra c u tài li u + Nh p nh ng do ch n sai ch tra c u + Nh p nh ng do ch n sai b ng mã + Nh p nh ng khi ta nh p t vi t t t - Nh p nh ng trong lúc tra c u tài li u - Nh p nh ng khi phân lo i tài li u K T LU N CHƯƠNG 1 Chương này t p trung, gi i thi u khái quát v X lý ngôn ng t nhiên, t ng quan v ti ng Vi t, các giai o n hình thành ti ng Vi t, c i m c a ti ng Vi t, tính nh p nh ng trong ti ng Vi t. T ây chúng ta ưa ra các gi i quy t tính nh p nh ng ti ng Vi t trong tra c u tài li u. Ph n ti p theo c a lu n văn này ó là phân tích bài toán x lý nh p nh ng trong tra c u tài li u ph c v gi ng d y và h c t p ngành Ch bi n th c ph m.
  13. 11 CHƯƠNG 2 PHÂN TÍCH VÀ THI T K H TH NG X LÝ NH P NH NG 2.1. PHÂN TÍCH HI N TR NG 2.1.1. Gi i thi u Ngành Ch bi n th c ph m Trư ng Cao ng Lương Th c-Th c Ph m a. Gi i thi u Trư ng Cao ng Lương Th c-Th c Ph m Trư ng Cao ng Lương Th c-Th c Ph m là trư ng công l p n m trong h th ng giáo d c i h c Vi t Nam, tr c thu c B Nông nghi p và PTNT. Tr i qua hơn 35 năm xây d ng và phát tri n, Trư ng luôn là m t cơ s ào t o n ng c t, cung c p ngu n nhân l c cho s phát tri n c a ngành khu v c mi n Trung-Tây Nguyên và trong c nư c, góp ph n th c hi n công nghi p hóa, hi n i hóa t nư c. Trư ng ào t o a d ng nhi u ngành ngh b c Cao ng, Trung c p, trong ó ngành ào t o tr ng tâm c a nhà trư ng: ngành Ch bi n th c ph m, ngành ã ào t o ngu n nhân l c l n cho các xư ng, xí nghi p, công ty ch bi n th c ph m… b. Gi i thi u ngành Ch bi n th c ph m Ngành Ch bi n th c ph m bao g m nh ng ki n th c cơ b n v nguyên li u, kĩ thu t ch bi n m t s s n ph m t rau qu , m t s s n ph m th y s n, bánh k o, bia, rư u, nư c gi i khát. C th là c u t o, thành ph n hóa h c c a nguyên li u và nh hư ng c a nh ng thành ph n n quá trình ch bi n; quy trình công ngh ch bi n, yêu c u công ngh và các thông s kĩ thu t c n thi t c a t ng quá trình, nh ng y u t nh hư ng n quá trình ch bi n m t s s n ph m t rau qu , s n ph m th y s n, bánh k o, bia, rư u, nư c gi i khát ánh giá ư c ch t lư ng s n ph m
  14. 12 2.1.2. Tình hình th c t S lư ng h c sinh trúng tuy n vào ngành Ch bi n th c ph m c a trư ng trong nh ng năm g n ây ch t 2/3 s lư ng ch tiêu c a nhà trư ng. Hình 2.1 Bi u sinh viên trúng tuy n Ngành Ch bi n th c ph m Các i tư ng thư ng xuyên tra c u tài li u trong thư vi n ó là: giáo viên và sinh viên. - i v i các giáo viên, c bi t là các giáo viên m i vào trư ng, kinh nghi m gi ng d y còn chưa nhi u (t 1 3 năm), nhưng năm nào cũng ph i t so n bài gi ng các môn chuyên ngành ph c v cho quá trình gi ng d y, theo yêu c u c a nhà trư ng các bài gi ng ph i luôn c p nh t th c t , có như v y m i áp ng ư c vi c h c c a h c sinh sinh viên và tuy n d ng c a nhà lao ng. Theo th ng kê c a thư vi n, v n mư n sách chuyên ngành c a các giáo viên h ng năm c a thư vi n ngày càng gi m, m c dù năm nào cũng ph i so n giáo trình, giáo án, tài li u m i, b sung Hình 2.2 Bi u s lư ng giáo viên mư n sách ngành Ch bi n
  15. 13 c thù các môn c a ngành Ch bi n th c ph m c n nhi u ki n th c th c t , mà các giáo viên tr ch y u l y các ngu n ki n th c t sách thư vi n là chưa , ngoài ra còn tìm ki m, tra c u các tài li u trên Internet, tuy nhiên quá trình tra c u tài li u không ph i lúc nào cũng cho nh ng k t qu như mong mu n Ví d : trong môn ch bi n rau qu , các giáo viên tra c u b ng công c Google, gõ t khóa: ch bi n rau qu filetype:doc (nghĩa là các giáo viên mu n tìm các tài li u có d ng file doc liên quan t i v n nói trên) K t qu nh n ư c r t nhi u, giáo viên c n có th i gian dài ch n l c các tài li u có liên quan, ôi lúc l i không tìm ư c tài li u c n tìm. Hình 2.3 K t qu tìm ki m Google - H u h t các giáo viên và sinh viên u tra c u tài li u có s n trên m ng Internet, như Google, Yahoo...Khi tra c u trên Internet, s dĩ k t qu tìm ki m quá nhi u như v y là do x y ra nh p nh ng trong
  16. 14 t khóa tìm ki m. C n ph i gi i thích ng nghĩa các t ti ng Vi t cho úng có th x lý các hi n tư ng nh p nh ng, h n ch ư c nh ng k t qu tra c u không úng v i yêu c u. Do ó, thu n l i cho vi c gi ng d y và h c t p c a các giáo viên và sinh viên vi c tra c u tài li u ti ng Vi t liên quan n ngành Ch bi n thì ph i tìm chính xác nh ng t khi ngư i s d ng nh p vào ô tra c u, tìm úng ng vì ti ng Vi t là lo i ti ng ph c t p. 2.2. XU T MÔ HÌNH GI I PHÁP Hình 2.5 Mô hình gi i pháp
  17. 15 2.3. TRI N KHAI THI T K H TH NG 2.3.1. Xây d ng ngu n d li u tra c u Tài li u các giáo viên và sinh viên c n tra c u ó là tài li u thu th p t sách, báo thư vi n, Internet và các ki n th c, giáo trình c a các giáo viên có kinh nghi m Trên cơ s ó, chúng ta t xây d ng ngu n d li u như sau: - Các ngu n d li u t Internet, sách báo: s ư c l yt ng t Internet thông qua chương trình t xây d ng, các thông tin l y v ã ư c phân lo i theo m c và lưu tr trong CSDL (thông tin gì thì s lưu vào CSDL theo m c ã ư c xây d ng s n) - Ngu n d li u nh p b ng tay: ó là các giáo trình, giáo án, cương… c a các th y cô có kinh nghi m trong trư ng cũng như các trư ng khác có cùng ngành Ch bi n th c ph m i v i ngu n d li u này, chúng ta s t phân lo i s n. Xây d ng ngu n d li u tra c u òi h i chúng ta ph i t p trung nhi u công s c, th i gian u tư, ch n l c, có như v y k t qu tra c u tài li u m i t hi u qu t t nh t i v i ngư i s d ng 2.3.2. Xây d ng CSDL t v ng lĩnh v c ch bi n th c ph m Trư c tiên tìm hi u các môn chuyên ngành liên quan n ngành Ch bi n th c ph m như: công ngh s n xu t bia, công ngh s n xu t ư ng, công ngh s n xu t s a và các s n ph m t s a, công ngh s n xu t nư c gi i khát, công ngh s n xu t bánh k o, công ngh ch bi n th y s n, công ngh ch bi n rau qu , dinh dư ng và an toàn th c ph m, hóa h c và ph gia th c ph m, thi t b th c ph m, công ngh ch bi n th c ph m, b o qu n th c ph m,
  18. 16 công ngh b o qu n và ch bi n lương th c, ki m nghi m lương th c th c ph m, qu n lý ch t lư ng th c ph m, bao bì th c ph m… Sau khi tìm hi u các môn này, ta s có các t khóa là tên các môn, d a vào ây xây d ng các t ơn, t ghép theo các t khóa liên quan này T o b ng trong CSDL lưu t t c các t ghép Ví d : có t ghép “ki m nghi m”, ngoài ra còn có các t ghép như là: ki m tra, ki m nh…ta s xây d ng trên cơ s các t ơn và các t ơn ghép thành các t ghép có nghĩa. 2.3.3. Thi t k h th ng a. Các tác nhân tham gia vào ng d ng Các tác nhân tham gia tr c ti p vào ng d ng là m t ngư i hay nhóm ngư i. i v i ng d ng x lý nh p nh ng trong tra c u tài li u gi ng d y và h c t p ngành ch bi n th c ph m thì tác nhân tham gia vào ng d ng bao g m: Ngư i s d ng: giáo viên, h c sinh sinh viên Ngư i qu n tr : + C p quy n s d ng cho ngư i dùng, s a ch a, b o m t h th ng… + C p nh p kho t i n, kho d li u b. Thi t k cơ s d li u Xây d ng m t kho t v ng g m các t ơn và t ghép mà m i t này ph i úng ng nghĩa c a ti ng Vi t tránh nh p nh ng v ng nghĩa ti ng Vi t; k thu t x lý nh p nh ng b t u t vi c phân tích ti ng Vi t t ơn v nh nh t là ký t , ti p n là t ơn, t ghép, ng và cu i cùng là câu. Ghép các nguyên âm và ph âm thành t ơn có nghĩa. T các t ơn ghép thành t ghép. T các t ơn và các t ghép, ghép l i thành ng , thành câu.
  19. 17 T ây lưu các t ã ghép úng ng nghĩa vào t p tin CSDL. Xây d ng k thu t x lý nh p nh ng cho các yêu c u tra c u b ng ti ng Vi t, tránh nh ng l i nh p nh ng trong ti ng Vi t. Do ó, thi t k cơ s g m có 2 b ng như sau: TUGOC và TUGHEP B ng 2.2 TUGOC Tên trư ng Ki u d li u Mô t Mã t g c (khóa MaTuGoc Int chính) TuGoc nvarchar(50) T g c B ng 2.3 TUGHEP Tên trư ng Ki u d li u Mô t Mã t g c (t ơn) MaTuGoc Int (khóa ngo i) T ghép (khóa TuGhep nvarchar(50) ngo i) D li u cho quá trình x lý ph i có các nguyên âm ghép v i ph âm cùng các d u thanh t o thành m t t ơn. T nh ng t ơn này ghép l i thành t ghép. tránh nh p nh ng trong ti ng Vi t là t ơn và t ghép sau khi ghép xong ph i úng ng nghĩa c a ti ng Vi t và lưu l i dư i d ng t p tin text. T p tin text này chính là t i n g m các t ơn và t ghép.
  20. 18 T các t ơn và t ghép ã ki m tra úng ng nghĩa, sau ó tách t ơn theo t ơn, t ghép theo t ghép và ghi vào CSDL nh m ph c v cho vi c tra c u tài li u. V i kho d li u 1000 t ghép t m ph c v cho vi c tra c u tài li u Ngành Ch bi n th c ph m ư c lưu trong CSDL SQL Server. c. Thi t k các m i quan h gi a các b ng Chúng ta có 2 b ng, m i quan h c a chúng như sau: Hình 2.6 Mô hình quan h th c th 2.4. K THU T X LÝ NH P NH NG TRONG TRA C U TÀI LI U Mu n xây d ng k thu t x lý nh p nh ng trong tra c u tài li u ph c v gi ng d y và h c t p ph i áp ng nh ng yêu c u: xây d ng m t kho t i n t g m các t ơn và t ghép mà m i t này ph i úng ng nghĩa c a ti ng Vi t tránh nh p nh ng v ng nghĩa ti ng Vi t. T kho t i n này xây d ng k thu t x lý nh p nh ng trong tra c u tài li u. K thu t x lý nh p nh ng b t u t vi c phân tích ti ng Vi t t ơn v nh nh t là ký t , ti p n là t ơn, t ghép, ng và cu i cùng là câu. Tr i qua các bư c sau:
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2