intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn thạc sĩ: Sử dụng phương pháp tách từ xây dựng công cụ phân tích văn bản trong ngữ cảnh hạn chế

Chia sẻ: Sdfas Vfdtg | Ngày: | Loại File: PDF | Số trang:13

118
lượt xem
17
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Sử dụng phương pháp tách từ xây dựng công cụ phân tích văn bản trong ngữ cảnh hạn chế nhằm xây dựng một công cụ phân tích văn bản tiếng Việt, sử dụng tiếng Việt để khử ngôn ngữ nhập nhằng.

Chủ đề:
Lưu

Nội dung Text: Luận văn thạc sĩ: Sử dụng phương pháp tách từ xây dựng công cụ phân tích văn bản trong ngữ cảnh hạn chế

  1. 1 2 B GIÁO D C VÀ ĐÀO T O Công trình ñư c hoàn thành t i Đ I H C ĐÀ N NG _____________________ Đ I H C ĐÀ N NG TRƯƠNG TH THANH Ngư i hư ng d n khoa h c: PGS.TS. Phan Huy Khánh S D NG PHƯƠNG PHÁP TÁCH T XÂY D NG CÔNG C PHÂN TÍCH VĂN B N Ph n bi n 1: PGS.TSKH.Tr n Qu c Chi n TRONG NG C NH H N CH Ph n bi n 2: PGS.TS.Đoàn Văn Ban Chuyên ngành: Khoa h c máy tính Lu n văn s ñư c b o v t i H i ñ ng ch m Lu n văn t t Mã s : 60.48.01 nghi p th c sĩ k thu t h p t i Đ i H c Đà N ng vào ngày 11 tháng 09 năm 2011 TÓM T T LU N VĂN TH C SĨ K THU T Có th tìm hi u lu n văn t i: - Trung tâm Thông tin - H c li u, Đ i H c Đà N ng - Trung tâm H c li u, Đ i H c Đà n ng Đà N ng – Năm 2011
  2. 3 4 M Đ U • Công c phân tích văn b n là gì? 1. Gi i thi u chung Là công c h tr ngư i dùng th c hi n các thao tác v i văn b n: Internet tr thành m t kho ki n th c kh ng l v m i lĩnh v c. Do lưu tr , phân lo i, tìm ki m, t i ưu tìm ki m. ñó, s lư ng văn b n xu t hi n trên m ng Internet cũng tăng theo v i • Phương pháp tách t như th nào? t c ñ chóng m t, ñó là chưa k ñ n các b n lưu tr trên ñó. Tuy s Dùng m t t ñi n có ñ nh d ng có th ñ c và phân tích ñư c các lư ng ñ s như v y nhưng ng v i nh ng ñ i tư ng c th l i có m c gi i nghĩa cho m t t , ch ng h n các t ñi n d ng tài li u XML. nh ng yêu c u c th khác nhau, t c ñ khác nhau. Ngư i ta quan Các t ñi n d ng này có th t i mi n phí t Internet. tâm vi c làm sao tóm g n n i dung nhanh nh t trên nh ng ñ i tư ng 3. M c tiêu nghiên c u ñó. Xây d ng m t công c phân tích văn b n ti ng Vi t hi u qu d a Tuy nhiên, v i kho d li u kh ng l mà chúng ta dùng cách ñ c, trên vi c phân tích nh ng phương pháp khác nhau và s d ng m t s hi u và dùng cách này lưu tr , phân lo i t ng văn b n s t n r t nhi u lu t trong ngôn ng ti ng Vi t ñ kh các nh p nh ng. th i gian, công s c. Nghiên c u phương pháp tìm ki m tài li u nhanh chóng theo ñ nh V y, sao chúng ta không s d ng công c ph n m m ñ th c hi n d ng. vi c ñó giúp chúng ta? L i d ng t c ñ máy tính, th i gian s p x p Nghiên c u phương pháp tách t ñư c áp d ng thành công trong nhanh, ñ chu n xác cao và quan tr ng là chúng ta không c n ñ c t t m t s lu t trong ngôn ng như: ti ng Anh, ti ng Trung…Có ñánh c văn b n mà chúng ta có, nhưng nó v n ñ m b o nhu c u s d ng, giá v các phương pháp này khi áp d ng cho ti ng Vi t. tra c u và h c t p nhanh hơn. Nghiên c u phương pháp tách t trong vi c t i ưu hoá tìm ki m Xu t phát t nhu c u ñó, tác gi ñã ch n ñ tài “S d ng phương văn b n. pháp tách t xây d ng công c phân tích văn b n trong ng c nh 4. N i dung nghiên c u h n ch ” làm ñ tài cho lu n văn th c s c a mình. • Công c tìm ki m văn b n SEO 2. Phát bi u bài toán • Phương pháp xác su t Naïve Bayes • Phân tích văn b n ñ làm gì? • Phương pháp K ngư i láng gi ng g n nh t (K- Naerest Phân tích văn b n ñ giúp ta phân lo i văn b n giúp sinh viên lưu Neighbours) tr , tìm ki m m t cách d dàng hơn • Phương pháp s d ng mang Neural • Ng c nh h n ch là như th nào? • Phương pháp th ng kê Ng c nh h n ch là hoàn c nh giao ti p b h n ch c th : th i • Phương pháp c u trúc di n ngôn gian, ñ a ñi m phát sinh cùng v i nh ng s vi c, hi n tư ng x y ra • Nguyên m u (prototype) xung quanh. • Mô hình xác su t Naïve Bayes Ng c nh h n ch s d ng trong lu n văn là trong môi trư ng h c • Phương pháp SVM (support vector Machines) t p c a sinh viên, ng c nh văn b n là các văn b n d ng: html, doc, • Phương pháp cây quy t ñ nh xml,… • Phân lo i văn b n b ng phương pháp h i qui
  3. 5 6 • Tách t ti ng Vi t dùng mô hình WFST pháp tách t : phân tích các ch c năng c a h th ng, t ñó thi t k • Tách t ti ng Vi t dùng mô hình Maximum Matching cho các ch c năng và t ch c d li u c a h th ng. • Tách t ti ng Vi t dùng mô hình MMSeg Chương 3: Xây d ng ng d ng và ñánh giá k t qu th • Tách t ti ng Vi t dùng mô hình Maximum Entropy nghi m: xây d ng các module chính, các thu t toán, cài ñ t chương • Bóc tách văn b n trình và trình bày k t qu th nghi m. 5. Phương pháp nghiên c u K t lu n và hư ng phát tri n: nêu ra các nh n xét v k t qu Đ có th phân tích văn b n ti ng Vi t trong ng c nh h n ch thì ñ t ñư c và m t s phương pháp phát tri n ti p theo c a ñ tài. ñi u ñ u tiên là c n l y ngu n văn b n m t cách nhanh nh t. Bư c ti p theo ph i tách văn b n thành các t và c m t có nghĩa trong ti ng Vi t. Vì th trong lu n văn này, tác gi ng d ng m t s phương pháp tách t áp d ng cho ti ng Vi t và công c tách t hi u qu trên văn b n ti ng Vi t. 6. Ý nghĩa khoa h c và th c ti n c a ñ tài Vi c xây d ng thành công công c phân tích văn b n trong ng c nh h n ch s có th ñư c áp d ng vào nhi u ng d ng trong vi c tìm ki m tài li u h c t p cho sinh viên, góp ph n gi m thi u v th i gian và công s c con ngư i. Đ ng th i vi c nghiên c u và xây d ng thành công công c tách t hi u qu trên văn b n ti ng Vi t m ra ñi u ki n thu n l i cho các bài toán x lý nguôn ng t nhiên khác trên ti ng Vi t. Đưa ra cái nhìn t ng quát cho b i toán tìm ki m văn b n chính xác, ti t ki m th i gian, công s c. 7. B c c lu n văn Lu n văn g m 3 chương có n i dung như sau: M ñ u: gi i thi u lý do ch n ñ tài, gi i thi u bài toán, m c ñích, m c tiêu và hư ng nghiên c u c a ñ tài. Chương 1: Tìm hi u v phân tích văn b n ti ng Vi t: gi i thi u t ng quan v lý thuy t v t ti ng Vi t, văn b n, x lý văn b n, các phương pháp bi u di n văn b n, các phương pháp tách t ti ng Vi t, bài toán phân tích văn b n ti ng Vi t và các thu t toán liên quan Chương 2:Gi i pháp phân tích văn b n s d ng phương
  4. 7 8 CHƯƠNG 1 BÀI TOÁN PHÂN TÍCH VĂN B N 1.1.4 L ch s và quy tình phân tích 1.1 LÝ THUY T V VĂN B N VÀ PHÂN TÍCH VĂN B N L ch s : S xu t hi n c a phân tích văn b n trong hình th c hi n 1.1.1 Khái ni m văn b n t i c a nó b t ngu n t m t tái t p trung nghiên c u vào cu i nh ng V i nghĩa thông thư ng, văn b n là tên g i ch nh ng tài li u, bài năm 1990 t thu t toán phát tri n ñ ng d ng, như mô t c a giáo sư vi t ñư c in n, lưu hành hang ngày trong giao ti p (m t bài báo, m t A. Marti Hearst trong các văn b n gi y Untangling Khai thác d li u. công văn, m t t p tài li u, m t quy t ñ nh,…). V i nghĩa là m t thu t Quy trình phân tích: thu th p ho c xác ñ nh m t t p h p các tài ng ngôn ng h c, văn b n là m t trong nh ng ñơn v ph c t p, có li u văn b n, trên Web ho c ñư c t ch c t i cơ s d li u m t t p nhi u cách hi u và ñ nh nghĩa khác nhau. tin, h th ng, ho c h th ng qu n lý n i dung, ñ phân tích. Có th h th ng hóa m t s cách ñ nh nghĩa v văn b n như sau: 1.1.5 ng d ng • Hư ng thiên v nh n m nh hình th c Phân tích văn b n ng d ng trong: Doanh nghi p kinh doanh • Hư ng thiên v nh n m nh m t n i dung thông minh, khai thác d li u, c nh tranh trí tu , Qu n lý h sơ, an • Hư ng t ng h p ninh Qu c gia, khám phá khoa h c, ñ c bi t là khoa h c ñ i • Hư ng phân bi t văn b n và di n ngôn s ng,ngôn ng t nhiên (B công c và d ch v ), Tìm ki m thông tin 1.1.2 Phân l p văn b n 1.2 BÀI TOÁN PHÂN TÍCH VĂN B N Phân l p là quá trình mà trong ñó nh ng ý tư ng và các ñ i tư ng Bài toán phân tích văn b n ñã ñư c nghiên c u khá lâu trên nhi u ñư c nh n ra, ñư c phân bi t và hi u rõ. ngôn ng . Tuy nhiên, lu n văn này ch ñi vào hai ngôn ng Có 3 phương pháp ti p c n ch y u: chính:Ti ng Anh, Ti ng Vi t. • Phân l p c ñi n (classical categorization) 1.2.1 M t s khái ni m cơ b n và t ng quan • Khái ni m clustering (conceptual clustering) Trình bày m t s khái ni m v : H ng, T khóa, T v ng, T khóa, Thu t ng , Khái ni m, L p, Tr ng s , Đ c trưng, Ch n l a ñ c • Lý thuy t m u (Prototype theory) trưng, Rút trích ñ c trưng. 1.1.3 Phân tích văn b n Phân tích văn là mô t m t t p h p các ngôn ng , th ng kê, và 1.2.2 L ch s nghiên c u các phương pháp ti p c n bài toán phân máy h c k thu t d a trên mô hình và c u trúc n i dung thông tin c a tích văn b n các ngu n văn b n ñ các có ñư c thông tin, phân tích d li u thăm So v i bài toán phân tích văn b n áp d ng trên ti ng Anh (phát dò, nghiên c u, ho c ñi u tra. Nhóm phân tích c n t ñ t ra và tr l i tri n t năm 1990), phân tích văn b n ti ng Vi t m i có trong th i nh ng câu h i sau ñây: gian g n ñây. 1.2.3 Phân lo i văn b n ti p c n theo hư ng dãy t • Đây là lo i văn b n gì? 1.2.3.1 Xác su t Naïve Bayes • Văn b n này ñư c vi t v i m c ñích gì? Naïve Bayes là phương pháp phân l p d a trên th ng kê. Nó s • Văn b n ñư c vi t cho ñ i tư ng nào? d ng m t ư c lư ng b ng s v m c ñ tin tư ng vào m t gi thuy t • Văn b n này ñư c ñ c v i m c ñích gì? • Văn b n này cung c p cho ngư i ñ c thông tin gì?
  5. 9 10 trư c khi quan sát ñư c b ng ch ng, và tính toán m t ư c lư ng 1.2.4 Phân tích văn b n ti p c n theo hư ng mô hình ngôn ng b ng s v m c ñ tin tư ng vào gi thuy t ñó. th ng kê N-Gram P(Y / X ) P( X ) Trong các phương pháp ñó, Naïve Bayes là m t phương pháp có P( X / Y ) = b phân l p Naïve Bayes có th ñ t ñư c t l phân l p l i t i ưu n u P(Y ) như có th can thi p ñ n gi s ñ c l p c a phương pháp này. Trong 1.2.3.2 K-láng gi ng g n nh t th c t , các thu c tính ph thu c l n nhau có th tăng ñ chính xác KNN là phương pháp ñơn gi n và không c n hu n luy n ñ nh n phân l p trong m t vài trư ng h p. d ng m u trong t p hu n luy n như các phương pháp khác. Hàm 1.3 BÀI TOÁN TÁCH T quy t ñ nh trong gi i thu t này: 1.3.1 Các v n ñ trong bài toán tách t 1.2.3.3 S d ng m ng neural 1.3.1.1 X lý nh p nh ng M ng neural nhân t o là phương pháp máy h c cung c p phương Nh p nh ng trong tách t ñư c phân thành hai lo i: pháp hi u qu ñ t o ra các giá tr x p x c a nh ng hàm có giá tr • Nh p nh ng ch ng (Overlapping Ambiguity) th c, giá tr r i r c, vector. • Nh p nh ng h p (Combination Ambiguity) 1.2.3.4 Phân tích văn b n b ng cây quy t ñ nh 1.3.1.2 Nh n di n t chưa bi t B phân l p cây quy t ñ nh là m t d ng cây mà m i nút ñư c gán T chưa bi t bao g m các t tên riêng ti ng Vi t ho c ti ng nư c nhãn là m t ñ c trưng, m i nhánh là giá tr trong s xu t hi n c a ñ c ngoài và các factoids (theo ñ nh nghĩa c a WordNet thì factoids là trưng trong văn b n c n phân l p, và m i lá là nhãn phân tích m c m t ñ i tư ng bi u di n nh ng thông tin ñ c bi t. ñích tài li u. 1.3.2 L ch s nghiên và hư ng ti p c n v i bài toán tách t 1.2.3.5 H i quy L ch s nghiên c u H i quy ñư c ñ nh nghĩa là hàm x p x giá tr th c f thay cho giá Các công trình l n, nh nghiên c u v lĩnh v c này ch y u là th tr nh phân trong bài toán phân tích. Hàm f s có nhi m v h c t nghi m, n i b t trong ñó là các công trình: Công trình c a nhóm LC kho ng li u. (http://vlcab.com), Công trình c a tác gi Lê Hà An [Lê Hà An, Fls = arg min FA − B 2 2003], Công trình c a [H.Nguyen, 2005], Công trình “H phân tách F t Vi t” n m trong nhóm s n ph m c a ñ tài KC01.01/06-10 1.2.3.6 Phân tích văn b n s d ng Support Vector Machines Các hư ng ti p c n chính cho bài toán tách t : Ti p c n d a SVM là phương pháp nh n d ng d a trên lý thuy t h c th ng kê vào t ñi n c ñ nh, d a vào th ng kê thu n tuý ho c d a vào c hai ngày càng ñư c s d ng ph bi n trong nhi u lĩnh v c, ñ c bi t là phương pháp trên. lĩnh v c phân lo i m u và nh n d ng m u. 1.3.3 Chuy n tr ng thái h u h n có tr ng s Đây có th ñư c xem là mô hình tách t ñ u tiên dành cho ti ng Vi t. Mô hình này là m t c i ti n c a mô hình WFST (Weighted
  6. 11 12 Finite State Transducer) c a [Richard, 1996] áp d ng cho ti ng M t khác, vi c phân tích văn b n không yêu c u vi c tách t ph i Trung Qu c ñ phù h p hơn v i ti ng Vi t. có ñ chính xác cao ñ n m c t ng t . Ta hoàn toàn có th th c hi n 1.3.4 M t s phương pháp tách t thêm vi c lo i b các t không c n thi t cho vi c phân lo i như các 1.3.4.1 So kh p t i ña (MM:Maximum Matching) hư t , thán t …ñ tăng t c ñ và s chính xác c a các bư c tách t , Maximum Maxching (MM) ñư c xem như là phương pháp tách t chu n b cho vi c phân tích văn b n. d a trên t ñi n ñơn gi n nh t. MM c g ng so kh p v i t dài nh t có th có trong t ñi n. 1.3.4.2 MMSeg (Maximum Matching Segment) Phương pháp này s d ng các lu t nh p nh ng: Lu t 1: s d ng Simple Maximum Matching l y t v i chi u dài nh t, Coplex maximum matching l y t ñ u tiên t dãy v i chi u dài nh t. N u có nhi u dãy v i chi u dài dài nh t, áp d ng lu t k ti p. Lu t 2: hai t 2 ti ng không ñi li n nhau. Đi u này hoàn toàn ñúng trong ti ng Vi t. Lu t 3: chi u dài bi n ñ ng nh nh t (smallest variance of word lengths). Có 1 s ít ñi u ki n nh p nh ng mà trong lu t 1 và lu t 2 không th gi i quy t ñư c. 1.3.4.3 Maximum Entropy Cho m t câu S=c1c2..cn có chi u dài n ti ng. Ta th c hi n tách t cho câu S b ng cách gán nhãn v trí cho t ng ti ng trong câu S các nhãn v trí trong PIV (Position In Word). 1.4 K T LU N Chương này ñã trình bày r t nhi u các phương pháp tách t khác nhau, d a trên các phân tích v ưu khuy t ñi m c a các phương pháp này, tác gi ñã ch n hư ng ti p c n d a trên “ti ng” (character- based) cho m c tiêu phân tích văn b n c a mình. B i vì, m c tiêu c a lu n văn là phân tích văn b n ti ng Vi t trong ng c nh h n ch do ngư i s d ng ñ nh nghĩa, m t lo i hình c c kỳ phong phú v n i dung và ngôn ng nên vi c t o ra m t t ñi n hoàn ch nh và có kh năng c p nh t các thay th di n ra liên t c c a ngôn ng khó th c hi n ñư c.
  7. 13 14 CHƯƠNG 2 GI I PHÁP PHÂN TÍCH VĂN B N • Theo Solncev thì l i quan ni m: “t là ñơn v ngôn ng có S D NG PHƯƠNG PHÁP TÁCH T tính hai m t: âm và nghĩa. T có kh năng ñ c l p v cú pháp khi 2.1 MÁY TÌM KI M s d ng trong l i”. 2.1.1 M t s Máy tìm ki m thông d ng • Trong ti ng Vi t, cũng có nhi u ñ nh nghĩa v t . Đ i v i nh ng ngư i tìm ki m, các công c tìm ki m ph bi n • Theo Trương Văn Trình và Nguy n Hi n Lê thì: “T là âm thư ng tr l i k t qu ñáng tin c nghĩa, dùng trong ngôn ng ñ diên t m t ý ñơn gi n nh t, nghĩa • http://www.google.com.vn/ là ý không th phân tích ra ñư c”. • http://ww.yahoo.com • Nguy n Kim Th n thì ñ nh nghĩa: “T là ñơn v cơ b n c a • http://www.ask.com ngôn ng , có th tách kh i các ñơn v khác c a l i nói ñ v n 2.1.2 Chi n lư c tìm ki m d ng m t cách ñ c l p và là m t kh i hoàn ch nh v ý nghĩa (t 2.1.2.1 Công ngh tìm ki m ng nghĩa trên th gi i hi n nay v ng hay ng pháp) và c u t o”. H u h t các hi u qu g n ñây c a các công c tìm ki m d a vào • Theo H Lê: “T là ñơn v ngôn ng có ch c năng ñ nh danh ng nghĩa ph thu c vào công ngh x lý ngôn ng t nhiên ñ phân phi liên k t hi n th c, ho c ch c năng mô ph ng ti ng ñ ng, có tích và hi u câu truy v n. kh năng k t h p t do, có tính v ng ch c v c u t o và tính nh t 2.1.2.2 Chi n lư c tìm ki m th v ý nghĩa”. D a vào: B thu th p thông tin, Robot, B l p ch m c – Index, 2.2.2 Hình thái t ti ng Vi t B tìm ki m thông tin. 2.2.2.1 Hình v ti ng Vi t 2.1.3 Ví d máy tìm ki m • Trong ti ng Vi t s có 3 lo i hình v như sau: Search engine ñi u khi n robot ñi thu th p thông tin trên m ng • Hình v g c: là nh ng nguyên t , ñơn v nh nh t, có nghĩa, thông qua các hyperlink. Khi robot phát hi n ra m t site m i, nó g i chúng có th là hình v th c (là nh ng t v ng) hay hình v hư tài li u v cho server chính ñ t o cơ s d li u ch m c ph c v cho (ng pháp), chúng có th ñ ng ñ c l p hay ràng bu c. nhu c u tìm ki m thông tin. • Tha hình v : v n là hình v g c, nhưng m i tương quan v i 2.2 TÌM HI U T TI NG VI T các thành t khác trong t mà chúng bi n ñ i v âm, nghĩa,… 2.2.1 Khái ni m t • Á hình v : là nh ng chi t ño n ng âm ñư c phân xu t m t Theo công trình c a Đinh Đi n [Dinh Dien, 2000], có m t s khái cách tiêu c c, thu n túy d a vào hình th c, không rõ nghĩa, song ni m tiêu bi u sau ñây: có giá tr khu bi t, làm ch c năng c u t o t . • Theo L.Bloomfield thì: “t là m t hình thái t do nh nh t” 2.2.2.2 T ti ng Vi t • B.Golovin quan ni m: “t là ñơn v nh nh t có nghĩa c a T ti ng Vi t ñây bao g m: t ñơn, t ghép, t láy và t ng u ngôn ng , ñư c v n d ng ñ c l p, tái hi n t do trong l i nói ñ h p. xây d ng nên câu”. 2.2.3 X lý tài li u theo ng nghĩa 2.2.3.1 Đ t v n ñ
  8. 15 16 Hi n nay, có r t nhi u mô hình v i nhi u hư ng ti p c n khác 2.3.1.1 Phân tích văn b n nhau, ch y u là:D a trên trí tu nhân t o (AI-based), d a trên Cơ s Các văn b n Ti ng Vi t sau khi ñã ñư c tách thành các t và c m tri th c (Knowledge-Based), d a trên ng li u (Corpus – Based). t s d a vào k t qu này ñ tìm ra các ñ c trưng c a văn b n v i các 2.2.3.2 Phân tích ng nghĩa ti m n (LSA) n i dung theo m c ñích ñã ñ nh. Đ nh ch s ng nghĩa ti m n (LSI – Latent Semantic Index), phương pháp Phân tích ng nghĩa ti m n (LSA – Latent Sematic Văn b n ti ng Vi t chưa Kho văn b n m u phân phân tích tích (t p hu n luy n) Analys). 2.3 PHÂN TÍCH H TH NG 2.3.1 Ki n trúc t ng quát c a h th ng Tách thành t và Tách thành t và c mt c mt VB n TV (html,doc) Internet Thu th p Phân tích văn b n Danh sách các t và c m Danh sách các t và ñã có VB n TV t c m t theo n i dung ñã ñư c văn b n quy t ñ nh Rút trích các ñ c Rút trích các ñ c trưng trưng +Chuyên gia Các g i + H th ng thông tin ý,n i dung + Thư vi n Danh sách các ñ c trưng Danh sách các ñ c Giao di n s d ng trưng c a văn b n theo m c ñích So sánh các ñ c trưng Tương tác Tương tác - user - Chuyên gia - Qu n tr Văn b n ñư c phân tích Hình 2.4: Mô hình t ng quát c a h th ng Hình 2.5: Qúa trình phân tích văn b n
  9. 17 18 2.3.1.2 Tách t và công c tách t Trong khi th c hi n công c tách t thì bên trong nó th c ch t s D a vào nh ng nghiên c u v phương pháp tách t , s d ng công x y ra các quá trình sau: c tách t ñã trình bày trong chương trư c cũng như nh ng nghiên • Mã hóa văn b n c u c a nh ng ngư i ñi trư c, tác gi ñã l a ch n phương pháp tách • Tách ti ng MMSeg ñ xây d ng ng d ng c a mình. 2.4.2.2 Bóc tách n i dung 2.3.2 Mô t công c ng d ng Th c hi n bóc tách là truy xu t tr c ti p vào n i dung toàn di n Công c mà tác gi xây d ng ñây s có nh ng ph n chính: r i ti n hành bóc tách. Sau ñó nh ng ñ c t d li u (meta data) ñư c • Tìm ki m văn b n xây d ng t ñ ng trên n n n i dung ñã bóc tách. • Phân tích văn b n theo m c ñích trong ng c nh h n ch 2.4.2.3 Phân lo i văn b n • Tách t trong văn b n ti ng Vi t K t qu c a quá trình tách t là ñ u vào cho quá trình phân lo i 2.3.3 Các ch c năng chính c a chương trình văn b n. Tuy nhiên, trong danh sách các t ñã ñư c tách, có các t Trong trương trình, ngư i s d ng s d ng các ch c năng chính không mang nghĩa ñ c trưng c a ch ñ ; ñó chính là t d ng sau: 2.4.2.4 Tách t d ng (stopword) M t trong nh ng cách gi m thi u s chi u ñ c trưng là lo i b các t d ng. Là nh ng t ch c năng, nó không mang n i dung mà ch y u ch a thông tin cú pháp trong câu. 2.5 K T LU N Phân tích, tách văn b n thành t p t khoá, l c tách t khoá c a văn b n nh m cô ñ ng nh ng t khoá ñ c trưng cho ng nghĩa c a văn b n, th ng kê và trích l c nh ng văn b n có ng nghĩa tương ñ ng. Hình 2.8: Use case t ng quát h th ng 2.4 THI T K H TH NG 2.4.1 Xây d ng cơ s d li u 2.4.2 Xây d ng các ch c năng 2.4.2.1 Tách t
  10. 19 20 CHƯƠNG 3 trên t ñi n và các thu t toán ñ c t khóa sao cho ñúng nghĩa nh t XÂY D NG CÔNG C VÀ ĐÁNH GIÁ K T QU c a câu. 3.1 CH N MÔI TRƯ NG, CÔNG C 3.2.2 Ch n t ñi n 3.1.1 Ngôn ng C# • Ch n kho t ñi n ti ng: dùng nh n d ng m t ti ng b t kỳ có M c tiêu c a C# là cung c p m t ngôn ng l p trình ñơn gi n, an ph i là ti ng Vi t hay không. toàn, hi n ñ i, hư ng ñ i tư ng, ñ t tr ng tâm vào internet, có kh • T ñi n t : bao g m t t c các t và c m t ti ng Vi t (g m năng th c thi cao cho môi trư ng .NET. C# là m t ngôn ng m i, t ñơn m t ti ng, t ghép nhi u ti ng, các c m t ) nhưng tích h p trong ñó tinh hoa c a ba th p k ngôn ng l p trình. 3.2.3 Ch n kho ng li u Ta d dàng có th th y trong C# có nh ng ñ c trưng quen thu c c a Ng li u xây d ng chu n cho ti ng Vi t d a trên ngu n tài JAVA, C++, Visual Basic,… nguyên chính là web ho c văn b n offline. 3.1.2 Microsoft Visual Web Developer 2008 Express Edition 3.2.4 Văn b n c n phân tích Microsoft Visual Web Developer 2008 Express Edition là công c Văn b n phân tích có các d ng: ñơn gi n, d dàng xây d ng các web cho phép nh p d li u, D dàng • Đ nh d ng file: .txt, .doc,.html xu t và chia s Thú v , D h c, K t n i v i c ng ñ ng phát tri n • Chu n chính t : văn b n ph i ñ m b o chu n chính t . ASP.NET Web. • Đ l n văn b n: văn b n không quá l n (
  11. 21 22 • Văn b n c n phân tích c p 2 (d ng min) • Tài li u ki m nghi m c a văn b n phân tích. • Tài li u hu n luy n c a các ch ñ . • Kho ti ng c a ti ng Vi t. • Kho t ti ng Vi t. 3.4.2 Thao tác cơ s d li u 3.4.2.1 T o các b ng trong cơ s d li u Các b ng ñư c t o: B ng Document, B ng Word, B ng Topic, B ng Subtopic, B ng Template 3.4.2.2 T o quan h các b ng d li u Hình 3.8: Đăng nh p vào h th ng 3.5.1.2 Giao di n hi n th qu n lý văn b n/tài li u Hình 3.7: Sơ ñ quan h d li u 3.5 ĐÁNH GIÁ K T QU Đ T ĐƯ C 3.5.1 Các giao di n ch c năng c a chương trình 3.5.1.1.Giao di n ñăng nh p Hình 3.10: Qu n lý văn b n 3.5.1.3 Giao di n tách t
  12. 23 24 K T LU N VÀ HƯ NG PHÁT TRI N 1. K t lu n Vi c nghiên c u ng nghĩa c a văn b n m ra m t hư ng phát tri n m i trong khai thác thông tin trên d li u. Ng nghĩa c a văn b n mang l i nhi u thu n l i như v y nhưng ñ th t s hi u rõ ñư c các phương pháp nghiên c u phân tích ng nghĩa là không d dàng. Do v y m c tiêu c a lu n văn ñ t ra gi i quy t : V lý thuy t: nghiên c u v ng nghĩa c a văn b n bao g m các ph n như: Tách t , Phân tích, tách văn b n thành t p t khoá, l c tách t khoá c a văn b n nh m cô ñ ng nh ng t khoá ñ c trưng cho ng nghĩa c a văn b n, th ng kê và trích l c nh ng văn b n có ng nghĩa tương ñ ng. V ph n ng d ng minh ho : xây d ng ñư c m t công c mang Hình 3.11: Tách văn b n thành các t tính demo s kh thi c a các k thu t phân tích văn b n 3.5.2 D li u th nghi m và k t qu K t qu v m t nghiên c u: Qua quá trình nghiên c u và tìm 3.5.2.1 D li u th nghi m hi u v lĩnh v c ng d ng ng nghĩa c a văn b n, tác gi ñã hi u D li u th nghi m ñư c l y t các t báo ñi n t l n vào tháng 5 ñư c và ghi nh n l i m t s k t qu ñ t ñư c như sau: năm 2011. • Tìm ki m ñư c nhi u tài li u hay và b ích v ng nghĩa c a 3.5.2.2 K t qu th nghi m văn b n. • N m ñư c các k thu t phân tích ng nghĩa c a văn b n, m t hư ng nghiên c u m i nh t c a công ngh thông tin hi n t i và trong tương lai. N m rõ các k thu t tách văn b n v i các ñ nh d ng b t kỳ. • N m v ng các k thu t l c tách t khoá ñ c trưng cho n i dung văn b n. • Tìm hi u và n m ñư c các k thu t th ng kê trích l c nh ng văn b n có ng nghĩa tương ñ ng. • Tìm hi u các k thu t phân tích logfile. • K t qu v m t phát tri n ng d ng: Đ i v i ng d ng minh ho tác gi ñã hoàn t t ñư c m c tiêu c a lu n văn ñ ra là n m v ng các k thu t:
  13. 25 26 • T ch c, lưu tr d li u và truy v n d li u trên SQL. Cách tìm ki m ñ i v i t ng các nhân ngư i dùng. Đây cũng là m t ñi n s d ng các k thu t tách t , phân tích văn b n ñ tách văn nh n c a th h web m i, hư ng t i cá nhân ngư i dùng. Phát tri n b n ñ nh d ng b t kỳ thành các t p t khoá ñ i di n cho m t module cho phép qu n lý thông tin ngư i dùng r t có ích cho ng nghĩa c a nó. m t h thông tìm ki m, g i ý. H thông s mang tính hư ng ngư i • H th ng h tr ngư i dùng trong vi c tìm ki m tài li u và dùng hơn b i nh ng k t qu c a h th ng ñư c l c d a trên thông tin g i ý tài li u d a trên ng nghĩa v a văn b n. Đ ng th i h quan tâm c a ngư i dùng. th ng h tr ngư i qu n tr vi c c p nh p thông tin v các S d ng search engine: Ngày nay, các k thu t tìm ki m không ñ i tư ng trong h th ng như thêm, s a, xoá văn b n, thành ch ñ t ñ chính xác cao mà còn ñ t t c ñ cao. T c ñ ñó chính là viên, c u hình h th ng. tiêu chu n c nh tranh cho các h th ng tìm ki m. Module này cho Sau khi hoàn t t công c tác gi còn n m thêm ñư c các ki n th c phép các h th ng có th l y k t qu tìm ki m m t cách nhanh chóng v công ngh : .Net, JavaScript, SQLserver, quan tr ng hơn c là n m d a trên nh ng tài nguyên mà máy ch google cung c p. ñư c kh năng phân tích ng nghĩa c a văn b n, t ñó t ñ ng trích rút ñư c nh ng văn b n ñ ng nghĩa. 2. Hư ng phát tri n D a vào nh ng thành qu ñã có chúng ta có th m ra nh ng hư ng m i nh m t i ưu hoá thu t toán và nâng cao ñ chính xác c a k t qu . Đ ng th i m r ng ngu n d li u nh tr c ti p tìm ki m các d li u trên m ng hay c i thi n tính năng tìm ki m nh s d ng các engine có s n. D a trên nh ng kh năng phát tri n ñó, lu n văn có th hoàn thi n khi có thêm các tính năng sau: Thu th p d li u tr c tuy n D li u tr c tuy n trên m ng là m t tài nguyên g n như vô h n. N u có m t cơ ch cho phép khai thác d li u trên m ng là ñ u vào cho h th ng thì các ch c năng c a h th ng s ñ t hi u qu cao và phong phú hơn. H th ng r t c n m t module cho phép l y d li u tr c tuy n. Đây chính là m t hư ng phát tri n ch ch t c ñ án nh m làm cho ñ án hoàn thi n hơn và có tính ng d ng th c t cao hơn. Thông tin ngư i dùng Vi c nghiên cưa các th c t ch c và lưu tr thông tin ngư i dùng hi u qu s ñem l i m t k t qu b t ng , giúp h th ng có th g i ý
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2