Luận văn thạc sĩ: Sử dụng phương pháp tách từ xây dựng công cụ phân tích văn bản trong ngữ cảnh hạn chế
lượt xem 17
download
Sử dụng phương pháp tách từ xây dựng công cụ phân tích văn bản trong ngữ cảnh hạn chế nhằm xây dựng một công cụ phân tích văn bản tiếng Việt, sử dụng tiếng Việt để khử ngôn ngữ nhập nhằng.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Luận văn thạc sĩ: Sử dụng phương pháp tách từ xây dựng công cụ phân tích văn bản trong ngữ cảnh hạn chế
- 1 2 B GIÁO D C VÀ ĐÀO T O Công trình ñư c hoàn thành t i Đ I H C ĐÀ N NG _____________________ Đ I H C ĐÀ N NG TRƯƠNG TH THANH Ngư i hư ng d n khoa h c: PGS.TS. Phan Huy Khánh S D NG PHƯƠNG PHÁP TÁCH T XÂY D NG CÔNG C PHÂN TÍCH VĂN B N Ph n bi n 1: PGS.TSKH.Tr n Qu c Chi n TRONG NG C NH H N CH Ph n bi n 2: PGS.TS.Đoàn Văn Ban Chuyên ngành: Khoa h c máy tính Lu n văn s ñư c b o v t i H i ñ ng ch m Lu n văn t t Mã s : 60.48.01 nghi p th c sĩ k thu t h p t i Đ i H c Đà N ng vào ngày 11 tháng 09 năm 2011 TÓM T T LU N VĂN TH C SĨ K THU T Có th tìm hi u lu n văn t i: - Trung tâm Thông tin - H c li u, Đ i H c Đà N ng - Trung tâm H c li u, Đ i H c Đà n ng Đà N ng – Năm 2011
- 3 4 M Đ U • Công c phân tích văn b n là gì? 1. Gi i thi u chung Là công c h tr ngư i dùng th c hi n các thao tác v i văn b n: Internet tr thành m t kho ki n th c kh ng l v m i lĩnh v c. Do lưu tr , phân lo i, tìm ki m, t i ưu tìm ki m. ñó, s lư ng văn b n xu t hi n trên m ng Internet cũng tăng theo v i • Phương pháp tách t như th nào? t c ñ chóng m t, ñó là chưa k ñ n các b n lưu tr trên ñó. Tuy s Dùng m t t ñi n có ñ nh d ng có th ñ c và phân tích ñư c các lư ng ñ s như v y nhưng ng v i nh ng ñ i tư ng c th l i có m c gi i nghĩa cho m t t , ch ng h n các t ñi n d ng tài li u XML. nh ng yêu c u c th khác nhau, t c ñ khác nhau. Ngư i ta quan Các t ñi n d ng này có th t i mi n phí t Internet. tâm vi c làm sao tóm g n n i dung nhanh nh t trên nh ng ñ i tư ng 3. M c tiêu nghiên c u ñó. Xây d ng m t công c phân tích văn b n ti ng Vi t hi u qu d a Tuy nhiên, v i kho d li u kh ng l mà chúng ta dùng cách ñ c, trên vi c phân tích nh ng phương pháp khác nhau và s d ng m t s hi u và dùng cách này lưu tr , phân lo i t ng văn b n s t n r t nhi u lu t trong ngôn ng ti ng Vi t ñ kh các nh p nh ng. th i gian, công s c. Nghiên c u phương pháp tìm ki m tài li u nhanh chóng theo ñ nh V y, sao chúng ta không s d ng công c ph n m m ñ th c hi n d ng. vi c ñó giúp chúng ta? L i d ng t c ñ máy tính, th i gian s p x p Nghiên c u phương pháp tách t ñư c áp d ng thành công trong nhanh, ñ chu n xác cao và quan tr ng là chúng ta không c n ñ c t t m t s lu t trong ngôn ng như: ti ng Anh, ti ng Trung…Có ñánh c văn b n mà chúng ta có, nhưng nó v n ñ m b o nhu c u s d ng, giá v các phương pháp này khi áp d ng cho ti ng Vi t. tra c u và h c t p nhanh hơn. Nghiên c u phương pháp tách t trong vi c t i ưu hoá tìm ki m Xu t phát t nhu c u ñó, tác gi ñã ch n ñ tài “S d ng phương văn b n. pháp tách t xây d ng công c phân tích văn b n trong ng c nh 4. N i dung nghiên c u h n ch ” làm ñ tài cho lu n văn th c s c a mình. • Công c tìm ki m văn b n SEO 2. Phát bi u bài toán • Phương pháp xác su t Naïve Bayes • Phân tích văn b n ñ làm gì? • Phương pháp K ngư i láng gi ng g n nh t (K- Naerest Phân tích văn b n ñ giúp ta phân lo i văn b n giúp sinh viên lưu Neighbours) tr , tìm ki m m t cách d dàng hơn • Phương pháp s d ng mang Neural • Ng c nh h n ch là như th nào? • Phương pháp th ng kê Ng c nh h n ch là hoàn c nh giao ti p b h n ch c th : th i • Phương pháp c u trúc di n ngôn gian, ñ a ñi m phát sinh cùng v i nh ng s vi c, hi n tư ng x y ra • Nguyên m u (prototype) xung quanh. • Mô hình xác su t Naïve Bayes Ng c nh h n ch s d ng trong lu n văn là trong môi trư ng h c • Phương pháp SVM (support vector Machines) t p c a sinh viên, ng c nh văn b n là các văn b n d ng: html, doc, • Phương pháp cây quy t ñ nh xml,… • Phân lo i văn b n b ng phương pháp h i qui
- 5 6 • Tách t ti ng Vi t dùng mô hình WFST pháp tách t : phân tích các ch c năng c a h th ng, t ñó thi t k • Tách t ti ng Vi t dùng mô hình Maximum Matching cho các ch c năng và t ch c d li u c a h th ng. • Tách t ti ng Vi t dùng mô hình MMSeg Chương 3: Xây d ng ng d ng và ñánh giá k t qu th • Tách t ti ng Vi t dùng mô hình Maximum Entropy nghi m: xây d ng các module chính, các thu t toán, cài ñ t chương • Bóc tách văn b n trình và trình bày k t qu th nghi m. 5. Phương pháp nghiên c u K t lu n và hư ng phát tri n: nêu ra các nh n xét v k t qu Đ có th phân tích văn b n ti ng Vi t trong ng c nh h n ch thì ñ t ñư c và m t s phương pháp phát tri n ti p theo c a ñ tài. ñi u ñ u tiên là c n l y ngu n văn b n m t cách nhanh nh t. Bư c ti p theo ph i tách văn b n thành các t và c m t có nghĩa trong ti ng Vi t. Vì th trong lu n văn này, tác gi ng d ng m t s phương pháp tách t áp d ng cho ti ng Vi t và công c tách t hi u qu trên văn b n ti ng Vi t. 6. Ý nghĩa khoa h c và th c ti n c a ñ tài Vi c xây d ng thành công công c phân tích văn b n trong ng c nh h n ch s có th ñư c áp d ng vào nhi u ng d ng trong vi c tìm ki m tài li u h c t p cho sinh viên, góp ph n gi m thi u v th i gian và công s c con ngư i. Đ ng th i vi c nghiên c u và xây d ng thành công công c tách t hi u qu trên văn b n ti ng Vi t m ra ñi u ki n thu n l i cho các bài toán x lý nguôn ng t nhiên khác trên ti ng Vi t. Đưa ra cái nhìn t ng quát cho b i toán tìm ki m văn b n chính xác, ti t ki m th i gian, công s c. 7. B c c lu n văn Lu n văn g m 3 chương có n i dung như sau: M ñ u: gi i thi u lý do ch n ñ tài, gi i thi u bài toán, m c ñích, m c tiêu và hư ng nghiên c u c a ñ tài. Chương 1: Tìm hi u v phân tích văn b n ti ng Vi t: gi i thi u t ng quan v lý thuy t v t ti ng Vi t, văn b n, x lý văn b n, các phương pháp bi u di n văn b n, các phương pháp tách t ti ng Vi t, bài toán phân tích văn b n ti ng Vi t và các thu t toán liên quan Chương 2:Gi i pháp phân tích văn b n s d ng phương
- 7 8 CHƯƠNG 1 BÀI TOÁN PHÂN TÍCH VĂN B N 1.1.4 L ch s và quy tình phân tích 1.1 LÝ THUY T V VĂN B N VÀ PHÂN TÍCH VĂN B N L ch s : S xu t hi n c a phân tích văn b n trong hình th c hi n 1.1.1 Khái ni m văn b n t i c a nó b t ngu n t m t tái t p trung nghiên c u vào cu i nh ng V i nghĩa thông thư ng, văn b n là tên g i ch nh ng tài li u, bài năm 1990 t thu t toán phát tri n ñ ng d ng, như mô t c a giáo sư vi t ñư c in n, lưu hành hang ngày trong giao ti p (m t bài báo, m t A. Marti Hearst trong các văn b n gi y Untangling Khai thác d li u. công văn, m t t p tài li u, m t quy t ñ nh,…). V i nghĩa là m t thu t Quy trình phân tích: thu th p ho c xác ñ nh m t t p h p các tài ng ngôn ng h c, văn b n là m t trong nh ng ñơn v ph c t p, có li u văn b n, trên Web ho c ñư c t ch c t i cơ s d li u m t t p nhi u cách hi u và ñ nh nghĩa khác nhau. tin, h th ng, ho c h th ng qu n lý n i dung, ñ phân tích. Có th h th ng hóa m t s cách ñ nh nghĩa v văn b n như sau: 1.1.5 ng d ng • Hư ng thiên v nh n m nh hình th c Phân tích văn b n ng d ng trong: Doanh nghi p kinh doanh • Hư ng thiên v nh n m nh m t n i dung thông minh, khai thác d li u, c nh tranh trí tu , Qu n lý h sơ, an • Hư ng t ng h p ninh Qu c gia, khám phá khoa h c, ñ c bi t là khoa h c ñ i • Hư ng phân bi t văn b n và di n ngôn s ng,ngôn ng t nhiên (B công c và d ch v ), Tìm ki m thông tin 1.1.2 Phân l p văn b n 1.2 BÀI TOÁN PHÂN TÍCH VĂN B N Phân l p là quá trình mà trong ñó nh ng ý tư ng và các ñ i tư ng Bài toán phân tích văn b n ñã ñư c nghiên c u khá lâu trên nhi u ñư c nh n ra, ñư c phân bi t và hi u rõ. ngôn ng . Tuy nhiên, lu n văn này ch ñi vào hai ngôn ng Có 3 phương pháp ti p c n ch y u: chính:Ti ng Anh, Ti ng Vi t. • Phân l p c ñi n (classical categorization) 1.2.1 M t s khái ni m cơ b n và t ng quan • Khái ni m clustering (conceptual clustering) Trình bày m t s khái ni m v : H ng, T khóa, T v ng, T khóa, Thu t ng , Khái ni m, L p, Tr ng s , Đ c trưng, Ch n l a ñ c • Lý thuy t m u (Prototype theory) trưng, Rút trích ñ c trưng. 1.1.3 Phân tích văn b n Phân tích văn là mô t m t t p h p các ngôn ng , th ng kê, và 1.2.2 L ch s nghiên c u các phương pháp ti p c n bài toán phân máy h c k thu t d a trên mô hình và c u trúc n i dung thông tin c a tích văn b n các ngu n văn b n ñ các có ñư c thông tin, phân tích d li u thăm So v i bài toán phân tích văn b n áp d ng trên ti ng Anh (phát dò, nghiên c u, ho c ñi u tra. Nhóm phân tích c n t ñ t ra và tr l i tri n t năm 1990), phân tích văn b n ti ng Vi t m i có trong th i nh ng câu h i sau ñây: gian g n ñây. 1.2.3 Phân lo i văn b n ti p c n theo hư ng dãy t • Đây là lo i văn b n gì? 1.2.3.1 Xác su t Naïve Bayes • Văn b n này ñư c vi t v i m c ñích gì? Naïve Bayes là phương pháp phân l p d a trên th ng kê. Nó s • Văn b n ñư c vi t cho ñ i tư ng nào? d ng m t ư c lư ng b ng s v m c ñ tin tư ng vào m t gi thuy t • Văn b n này ñư c ñ c v i m c ñích gì? • Văn b n này cung c p cho ngư i ñ c thông tin gì?
- 9 10 trư c khi quan sát ñư c b ng ch ng, và tính toán m t ư c lư ng 1.2.4 Phân tích văn b n ti p c n theo hư ng mô hình ngôn ng b ng s v m c ñ tin tư ng vào gi thuy t ñó. th ng kê N-Gram P(Y / X ) P( X ) Trong các phương pháp ñó, Naïve Bayes là m t phương pháp có P( X / Y ) = b phân l p Naïve Bayes có th ñ t ñư c t l phân l p l i t i ưu n u P(Y ) như có th can thi p ñ n gi s ñ c l p c a phương pháp này. Trong 1.2.3.2 K-láng gi ng g n nh t th c t , các thu c tính ph thu c l n nhau có th tăng ñ chính xác KNN là phương pháp ñơn gi n và không c n hu n luy n ñ nh n phân l p trong m t vài trư ng h p. d ng m u trong t p hu n luy n như các phương pháp khác. Hàm 1.3 BÀI TOÁN TÁCH T quy t ñ nh trong gi i thu t này: 1.3.1 Các v n ñ trong bài toán tách t 1.2.3.3 S d ng m ng neural 1.3.1.1 X lý nh p nh ng M ng neural nhân t o là phương pháp máy h c cung c p phương Nh p nh ng trong tách t ñư c phân thành hai lo i: pháp hi u qu ñ t o ra các giá tr x p x c a nh ng hàm có giá tr • Nh p nh ng ch ng (Overlapping Ambiguity) th c, giá tr r i r c, vector. • Nh p nh ng h p (Combination Ambiguity) 1.2.3.4 Phân tích văn b n b ng cây quy t ñ nh 1.3.1.2 Nh n di n t chưa bi t B phân l p cây quy t ñ nh là m t d ng cây mà m i nút ñư c gán T chưa bi t bao g m các t tên riêng ti ng Vi t ho c ti ng nư c nhãn là m t ñ c trưng, m i nhánh là giá tr trong s xu t hi n c a ñ c ngoài và các factoids (theo ñ nh nghĩa c a WordNet thì factoids là trưng trong văn b n c n phân l p, và m i lá là nhãn phân tích m c m t ñ i tư ng bi u di n nh ng thông tin ñ c bi t. ñích tài li u. 1.3.2 L ch s nghiên và hư ng ti p c n v i bài toán tách t 1.2.3.5 H i quy L ch s nghiên c u H i quy ñư c ñ nh nghĩa là hàm x p x giá tr th c f thay cho giá Các công trình l n, nh nghiên c u v lĩnh v c này ch y u là th tr nh phân trong bài toán phân tích. Hàm f s có nhi m v h c t nghi m, n i b t trong ñó là các công trình: Công trình c a nhóm LC kho ng li u. (http://vlcab.com), Công trình c a tác gi Lê Hà An [Lê Hà An, Fls = arg min FA − B 2 2003], Công trình c a [H.Nguyen, 2005], Công trình “H phân tách F t Vi t” n m trong nhóm s n ph m c a ñ tài KC01.01/06-10 1.2.3.6 Phân tích văn b n s d ng Support Vector Machines Các hư ng ti p c n chính cho bài toán tách t : Ti p c n d a SVM là phương pháp nh n d ng d a trên lý thuy t h c th ng kê vào t ñi n c ñ nh, d a vào th ng kê thu n tuý ho c d a vào c hai ngày càng ñư c s d ng ph bi n trong nhi u lĩnh v c, ñ c bi t là phương pháp trên. lĩnh v c phân lo i m u và nh n d ng m u. 1.3.3 Chuy n tr ng thái h u h n có tr ng s Đây có th ñư c xem là mô hình tách t ñ u tiên dành cho ti ng Vi t. Mô hình này là m t c i ti n c a mô hình WFST (Weighted
- 11 12 Finite State Transducer) c a [Richard, 1996] áp d ng cho ti ng M t khác, vi c phân tích văn b n không yêu c u vi c tách t ph i Trung Qu c ñ phù h p hơn v i ti ng Vi t. có ñ chính xác cao ñ n m c t ng t . Ta hoàn toàn có th th c hi n 1.3.4 M t s phương pháp tách t thêm vi c lo i b các t không c n thi t cho vi c phân lo i như các 1.3.4.1 So kh p t i ña (MM:Maximum Matching) hư t , thán t …ñ tăng t c ñ và s chính xác c a các bư c tách t , Maximum Maxching (MM) ñư c xem như là phương pháp tách t chu n b cho vi c phân tích văn b n. d a trên t ñi n ñơn gi n nh t. MM c g ng so kh p v i t dài nh t có th có trong t ñi n. 1.3.4.2 MMSeg (Maximum Matching Segment) Phương pháp này s d ng các lu t nh p nh ng: Lu t 1: s d ng Simple Maximum Matching l y t v i chi u dài nh t, Coplex maximum matching l y t ñ u tiên t dãy v i chi u dài nh t. N u có nhi u dãy v i chi u dài dài nh t, áp d ng lu t k ti p. Lu t 2: hai t 2 ti ng không ñi li n nhau. Đi u này hoàn toàn ñúng trong ti ng Vi t. Lu t 3: chi u dài bi n ñ ng nh nh t (smallest variance of word lengths). Có 1 s ít ñi u ki n nh p nh ng mà trong lu t 1 và lu t 2 không th gi i quy t ñư c. 1.3.4.3 Maximum Entropy Cho m t câu S=c1c2..cn có chi u dài n ti ng. Ta th c hi n tách t cho câu S b ng cách gán nhãn v trí cho t ng ti ng trong câu S các nhãn v trí trong PIV (Position In Word). 1.4 K T LU N Chương này ñã trình bày r t nhi u các phương pháp tách t khác nhau, d a trên các phân tích v ưu khuy t ñi m c a các phương pháp này, tác gi ñã ch n hư ng ti p c n d a trên “ti ng” (character- based) cho m c tiêu phân tích văn b n c a mình. B i vì, m c tiêu c a lu n văn là phân tích văn b n ti ng Vi t trong ng c nh h n ch do ngư i s d ng ñ nh nghĩa, m t lo i hình c c kỳ phong phú v n i dung và ngôn ng nên vi c t o ra m t t ñi n hoàn ch nh và có kh năng c p nh t các thay th di n ra liên t c c a ngôn ng khó th c hi n ñư c.
- 13 14 CHƯƠNG 2 GI I PHÁP PHÂN TÍCH VĂN B N • Theo Solncev thì l i quan ni m: “t là ñơn v ngôn ng có S D NG PHƯƠNG PHÁP TÁCH T tính hai m t: âm và nghĩa. T có kh năng ñ c l p v cú pháp khi 2.1 MÁY TÌM KI M s d ng trong l i”. 2.1.1 M t s Máy tìm ki m thông d ng • Trong ti ng Vi t, cũng có nhi u ñ nh nghĩa v t . Đ i v i nh ng ngư i tìm ki m, các công c tìm ki m ph bi n • Theo Trương Văn Trình và Nguy n Hi n Lê thì: “T là âm thư ng tr l i k t qu ñáng tin c nghĩa, dùng trong ngôn ng ñ diên t m t ý ñơn gi n nh t, nghĩa • http://www.google.com.vn/ là ý không th phân tích ra ñư c”. • http://ww.yahoo.com • Nguy n Kim Th n thì ñ nh nghĩa: “T là ñơn v cơ b n c a • http://www.ask.com ngôn ng , có th tách kh i các ñơn v khác c a l i nói ñ v n 2.1.2 Chi n lư c tìm ki m d ng m t cách ñ c l p và là m t kh i hoàn ch nh v ý nghĩa (t 2.1.2.1 Công ngh tìm ki m ng nghĩa trên th gi i hi n nay v ng hay ng pháp) và c u t o”. H u h t các hi u qu g n ñây c a các công c tìm ki m d a vào • Theo H Lê: “T là ñơn v ngôn ng có ch c năng ñ nh danh ng nghĩa ph thu c vào công ngh x lý ngôn ng t nhiên ñ phân phi liên k t hi n th c, ho c ch c năng mô ph ng ti ng ñ ng, có tích và hi u câu truy v n. kh năng k t h p t do, có tính v ng ch c v c u t o và tính nh t 2.1.2.2 Chi n lư c tìm ki m th v ý nghĩa”. D a vào: B thu th p thông tin, Robot, B l p ch m c – Index, 2.2.2 Hình thái t ti ng Vi t B tìm ki m thông tin. 2.2.2.1 Hình v ti ng Vi t 2.1.3 Ví d máy tìm ki m • Trong ti ng Vi t s có 3 lo i hình v như sau: Search engine ñi u khi n robot ñi thu th p thông tin trên m ng • Hình v g c: là nh ng nguyên t , ñơn v nh nh t, có nghĩa, thông qua các hyperlink. Khi robot phát hi n ra m t site m i, nó g i chúng có th là hình v th c (là nh ng t v ng) hay hình v hư tài li u v cho server chính ñ t o cơ s d li u ch m c ph c v cho (ng pháp), chúng có th ñ ng ñ c l p hay ràng bu c. nhu c u tìm ki m thông tin. • Tha hình v : v n là hình v g c, nhưng m i tương quan v i 2.2 TÌM HI U T TI NG VI T các thành t khác trong t mà chúng bi n ñ i v âm, nghĩa,… 2.2.1 Khái ni m t • Á hình v : là nh ng chi t ño n ng âm ñư c phân xu t m t Theo công trình c a Đinh Đi n [Dinh Dien, 2000], có m t s khái cách tiêu c c, thu n túy d a vào hình th c, không rõ nghĩa, song ni m tiêu bi u sau ñây: có giá tr khu bi t, làm ch c năng c u t o t . • Theo L.Bloomfield thì: “t là m t hình thái t do nh nh t” 2.2.2.2 T ti ng Vi t • B.Golovin quan ni m: “t là ñơn v nh nh t có nghĩa c a T ti ng Vi t ñây bao g m: t ñơn, t ghép, t láy và t ng u ngôn ng , ñư c v n d ng ñ c l p, tái hi n t do trong l i nói ñ h p. xây d ng nên câu”. 2.2.3 X lý tài li u theo ng nghĩa 2.2.3.1 Đ t v n ñ
- 15 16 Hi n nay, có r t nhi u mô hình v i nhi u hư ng ti p c n khác 2.3.1.1 Phân tích văn b n nhau, ch y u là:D a trên trí tu nhân t o (AI-based), d a trên Cơ s Các văn b n Ti ng Vi t sau khi ñã ñư c tách thành các t và c m tri th c (Knowledge-Based), d a trên ng li u (Corpus – Based). t s d a vào k t qu này ñ tìm ra các ñ c trưng c a văn b n v i các 2.2.3.2 Phân tích ng nghĩa ti m n (LSA) n i dung theo m c ñích ñã ñ nh. Đ nh ch s ng nghĩa ti m n (LSI – Latent Semantic Index), phương pháp Phân tích ng nghĩa ti m n (LSA – Latent Sematic Văn b n ti ng Vi t chưa Kho văn b n m u phân phân tích tích (t p hu n luy n) Analys). 2.3 PHÂN TÍCH H TH NG 2.3.1 Ki n trúc t ng quát c a h th ng Tách thành t và Tách thành t và c mt c mt VB n TV (html,doc) Internet Thu th p Phân tích văn b n Danh sách các t và c m Danh sách các t và ñã có VB n TV t c m t theo n i dung ñã ñư c văn b n quy t ñ nh Rút trích các ñ c Rút trích các ñ c trưng trưng +Chuyên gia Các g i + H th ng thông tin ý,n i dung + Thư vi n Danh sách các ñ c trưng Danh sách các ñ c Giao di n s d ng trưng c a văn b n theo m c ñích So sánh các ñ c trưng Tương tác Tương tác - user - Chuyên gia - Qu n tr Văn b n ñư c phân tích Hình 2.4: Mô hình t ng quát c a h th ng Hình 2.5: Qúa trình phân tích văn b n
- 17 18 2.3.1.2 Tách t và công c tách t Trong khi th c hi n công c tách t thì bên trong nó th c ch t s D a vào nh ng nghiên c u v phương pháp tách t , s d ng công x y ra các quá trình sau: c tách t ñã trình bày trong chương trư c cũng như nh ng nghiên • Mã hóa văn b n c u c a nh ng ngư i ñi trư c, tác gi ñã l a ch n phương pháp tách • Tách ti ng MMSeg ñ xây d ng ng d ng c a mình. 2.4.2.2 Bóc tách n i dung 2.3.2 Mô t công c ng d ng Th c hi n bóc tách là truy xu t tr c ti p vào n i dung toàn di n Công c mà tác gi xây d ng ñây s có nh ng ph n chính: r i ti n hành bóc tách. Sau ñó nh ng ñ c t d li u (meta data) ñư c • Tìm ki m văn b n xây d ng t ñ ng trên n n n i dung ñã bóc tách. • Phân tích văn b n theo m c ñích trong ng c nh h n ch 2.4.2.3 Phân lo i văn b n • Tách t trong văn b n ti ng Vi t K t qu c a quá trình tách t là ñ u vào cho quá trình phân lo i 2.3.3 Các ch c năng chính c a chương trình văn b n. Tuy nhiên, trong danh sách các t ñã ñư c tách, có các t Trong trương trình, ngư i s d ng s d ng các ch c năng chính không mang nghĩa ñ c trưng c a ch ñ ; ñó chính là t d ng sau: 2.4.2.4 Tách t d ng (stopword) M t trong nh ng cách gi m thi u s chi u ñ c trưng là lo i b các t d ng. Là nh ng t ch c năng, nó không mang n i dung mà ch y u ch a thông tin cú pháp trong câu. 2.5 K T LU N Phân tích, tách văn b n thành t p t khoá, l c tách t khoá c a văn b n nh m cô ñ ng nh ng t khoá ñ c trưng cho ng nghĩa c a văn b n, th ng kê và trích l c nh ng văn b n có ng nghĩa tương ñ ng. Hình 2.8: Use case t ng quát h th ng 2.4 THI T K H TH NG 2.4.1 Xây d ng cơ s d li u 2.4.2 Xây d ng các ch c năng 2.4.2.1 Tách t
- 19 20 CHƯƠNG 3 trên t ñi n và các thu t toán ñ c t khóa sao cho ñúng nghĩa nh t XÂY D NG CÔNG C VÀ ĐÁNH GIÁ K T QU c a câu. 3.1 CH N MÔI TRƯ NG, CÔNG C 3.2.2 Ch n t ñi n 3.1.1 Ngôn ng C# • Ch n kho t ñi n ti ng: dùng nh n d ng m t ti ng b t kỳ có M c tiêu c a C# là cung c p m t ngôn ng l p trình ñơn gi n, an ph i là ti ng Vi t hay không. toàn, hi n ñ i, hư ng ñ i tư ng, ñ t tr ng tâm vào internet, có kh • T ñi n t : bao g m t t c các t và c m t ti ng Vi t (g m năng th c thi cao cho môi trư ng .NET. C# là m t ngôn ng m i, t ñơn m t ti ng, t ghép nhi u ti ng, các c m t ) nhưng tích h p trong ñó tinh hoa c a ba th p k ngôn ng l p trình. 3.2.3 Ch n kho ng li u Ta d dàng có th th y trong C# có nh ng ñ c trưng quen thu c c a Ng li u xây d ng chu n cho ti ng Vi t d a trên ngu n tài JAVA, C++, Visual Basic,… nguyên chính là web ho c văn b n offline. 3.1.2 Microsoft Visual Web Developer 2008 Express Edition 3.2.4 Văn b n c n phân tích Microsoft Visual Web Developer 2008 Express Edition là công c Văn b n phân tích có các d ng: ñơn gi n, d dàng xây d ng các web cho phép nh p d li u, D dàng • Đ nh d ng file: .txt, .doc,.html xu t và chia s Thú v , D h c, K t n i v i c ng ñ ng phát tri n • Chu n chính t : văn b n ph i ñ m b o chu n chính t . ASP.NET Web. • Đ l n văn b n: văn b n không quá l n (
- 21 22 • Văn b n c n phân tích c p 2 (d ng min) • Tài li u ki m nghi m c a văn b n phân tích. • Tài li u hu n luy n c a các ch ñ . • Kho ti ng c a ti ng Vi t. • Kho t ti ng Vi t. 3.4.2 Thao tác cơ s d li u 3.4.2.1 T o các b ng trong cơ s d li u Các b ng ñư c t o: B ng Document, B ng Word, B ng Topic, B ng Subtopic, B ng Template 3.4.2.2 T o quan h các b ng d li u Hình 3.8: Đăng nh p vào h th ng 3.5.1.2 Giao di n hi n th qu n lý văn b n/tài li u Hình 3.7: Sơ ñ quan h d li u 3.5 ĐÁNH GIÁ K T QU Đ T ĐƯ C 3.5.1 Các giao di n ch c năng c a chương trình 3.5.1.1.Giao di n ñăng nh p Hình 3.10: Qu n lý văn b n 3.5.1.3 Giao di n tách t
- 23 24 K T LU N VÀ HƯ NG PHÁT TRI N 1. K t lu n Vi c nghiên c u ng nghĩa c a văn b n m ra m t hư ng phát tri n m i trong khai thác thông tin trên d li u. Ng nghĩa c a văn b n mang l i nhi u thu n l i như v y nhưng ñ th t s hi u rõ ñư c các phương pháp nghiên c u phân tích ng nghĩa là không d dàng. Do v y m c tiêu c a lu n văn ñ t ra gi i quy t : V lý thuy t: nghiên c u v ng nghĩa c a văn b n bao g m các ph n như: Tách t , Phân tích, tách văn b n thành t p t khoá, l c tách t khoá c a văn b n nh m cô ñ ng nh ng t khoá ñ c trưng cho ng nghĩa c a văn b n, th ng kê và trích l c nh ng văn b n có ng nghĩa tương ñ ng. V ph n ng d ng minh ho : xây d ng ñư c m t công c mang Hình 3.11: Tách văn b n thành các t tính demo s kh thi c a các k thu t phân tích văn b n 3.5.2 D li u th nghi m và k t qu K t qu v m t nghiên c u: Qua quá trình nghiên c u và tìm 3.5.2.1 D li u th nghi m hi u v lĩnh v c ng d ng ng nghĩa c a văn b n, tác gi ñã hi u D li u th nghi m ñư c l y t các t báo ñi n t l n vào tháng 5 ñư c và ghi nh n l i m t s k t qu ñ t ñư c như sau: năm 2011. • Tìm ki m ñư c nhi u tài li u hay và b ích v ng nghĩa c a 3.5.2.2 K t qu th nghi m văn b n. • N m ñư c các k thu t phân tích ng nghĩa c a văn b n, m t hư ng nghiên c u m i nh t c a công ngh thông tin hi n t i và trong tương lai. N m rõ các k thu t tách văn b n v i các ñ nh d ng b t kỳ. • N m v ng các k thu t l c tách t khoá ñ c trưng cho n i dung văn b n. • Tìm hi u và n m ñư c các k thu t th ng kê trích l c nh ng văn b n có ng nghĩa tương ñ ng. • Tìm hi u các k thu t phân tích logfile. • K t qu v m t phát tri n ng d ng: Đ i v i ng d ng minh ho tác gi ñã hoàn t t ñư c m c tiêu c a lu n văn ñ ra là n m v ng các k thu t:
- 25 26 • T ch c, lưu tr d li u và truy v n d li u trên SQL. Cách tìm ki m ñ i v i t ng các nhân ngư i dùng. Đây cũng là m t ñi n s d ng các k thu t tách t , phân tích văn b n ñ tách văn nh n c a th h web m i, hư ng t i cá nhân ngư i dùng. Phát tri n b n ñ nh d ng b t kỳ thành các t p t khoá ñ i di n cho m t module cho phép qu n lý thông tin ngư i dùng r t có ích cho ng nghĩa c a nó. m t h thông tìm ki m, g i ý. H thông s mang tính hư ng ngư i • H th ng h tr ngư i dùng trong vi c tìm ki m tài li u và dùng hơn b i nh ng k t qu c a h th ng ñư c l c d a trên thông tin g i ý tài li u d a trên ng nghĩa v a văn b n. Đ ng th i h quan tâm c a ngư i dùng. th ng h tr ngư i qu n tr vi c c p nh p thông tin v các S d ng search engine: Ngày nay, các k thu t tìm ki m không ñ i tư ng trong h th ng như thêm, s a, xoá văn b n, thành ch ñ t ñ chính xác cao mà còn ñ t t c ñ cao. T c ñ ñó chính là viên, c u hình h th ng. tiêu chu n c nh tranh cho các h th ng tìm ki m. Module này cho Sau khi hoàn t t công c tác gi còn n m thêm ñư c các ki n th c phép các h th ng có th l y k t qu tìm ki m m t cách nhanh chóng v công ngh : .Net, JavaScript, SQLserver, quan tr ng hơn c là n m d a trên nh ng tài nguyên mà máy ch google cung c p. ñư c kh năng phân tích ng nghĩa c a văn b n, t ñó t ñ ng trích rút ñư c nh ng văn b n ñ ng nghĩa. 2. Hư ng phát tri n D a vào nh ng thành qu ñã có chúng ta có th m ra nh ng hư ng m i nh m t i ưu hoá thu t toán và nâng cao ñ chính xác c a k t qu . Đ ng th i m r ng ngu n d li u nh tr c ti p tìm ki m các d li u trên m ng hay c i thi n tính năng tìm ki m nh s d ng các engine có s n. D a trên nh ng kh năng phát tri n ñó, lu n văn có th hoàn thi n khi có thêm các tính năng sau: Thu th p d li u tr c tuy n D li u tr c tuy n trên m ng là m t tài nguyên g n như vô h n. N u có m t cơ ch cho phép khai thác d li u trên m ng là ñ u vào cho h th ng thì các ch c năng c a h th ng s ñ t hi u qu cao và phong phú hơn. H th ng r t c n m t module cho phép l y d li u tr c tuy n. Đây chính là m t hư ng phát tri n ch ch t c ñ án nh m làm cho ñ án hoàn thi n hơn và có tính ng d ng th c t cao hơn. Thông tin ngư i dùng Vi c nghiên cưa các th c t ch c và lưu tr thông tin ngư i dùng hi u qu s ñem l i m t k t qu b t ng , giúp h th ng có th g i ý
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Luận văn Thạc sĩ Chuyên khoa cấp I: Khảo sát tình hình sử dụng kháng sinh trong điều trị đợt cấp bệnh phổi tắc nghẽn mạn tính (COPD) tại khoa nội B bệnh viện đa khoa tỉnh Thái Bình năm 2010
72 p | 378 | 92
-
Luận văn Thạc sĩ: Sử dụng phương pháp Graph trong dạy học Toán ở trường THPT nhằm tích cực hoá hoạt động học tập của học sinh - Lê Thị Ngọc Anh
114 p | 292 | 86
-
Tóm tắt luận văn Thạc sĩ Kỹ thuật: Hoàn thiện quy trình quản lý dự án đầu tư xây dựng các công trình hạ tầng kỹ thuật khu dân cư sử dụng vốn ngân sách tại Công ty trách nhiệm hữu hạn một thành viên Vật liệu xây dựng - Xây lắp và Kinh doanh nhà Đà Nẵng
26 p | 162 | 46
-
Tóm tắt luận văn Thạc sĩ Kỹ thuật: Nghiên cứu dao động của nhà cao tầng dưới tác động của tải trọng động đất
26 p | 142 | 23
-
Tóm tắt luận văn Thạc sĩ: Áp dụng kỹ thuật phân tích dữ liệu trực tuyến (OLAP) phục vụ công tác quản lý điều hành
19 p | 139 | 16
-
Tóm tắt luận văn Thạc sĩ: Xây dựng mô hình hệ thống “một cửa liên thông điện tử” cấp tỉnh
26 p | 127 | 12
-
Luận văn Thạc sĩ Sư phạm Toán: Sử dụng trò chơi trong dạy học chủ đề phân số số học 6
89 p | 52 | 9
-
Luận văn Thạc sĩ Sư phạm Toán: Rèn luyện tư duy sáng tạo cho học sinh thông qua dạy học chủ đề ứng dụng lượng giác vào đại số
148 p | 56 | 8
-
Luận văn Thạc sĩ Sư phạm Toán: Phát triển năng lực giải quyết vấn đề thực tiễn trong dạy học Toán 9
128 p | 35 | 7
-
Luận văn Thạc sĩ Sư phạm Lịch sử: Sử dụng bảo tàng Hồ Chí Minh trong dạy học Lịch sử Việt Nam thời kì 1954-1975 ở trường Trung học phổ thông Trần Hưng Đạo - Hà Đông - Hà Nội
125 p | 43 | 6
-
Luận văn Thạc sĩ Marketing thương mại: Nghiên cứu các yếu tố tác động đến sự hài lòng của khách hàng với The Coffee House và đưa ra giải pháp giúp doanh nghiệp nâng cao sự hài lòng của khách hàng
130 p | 15 | 5
-
Luận văn Thạc sĩ Sư phạm Toán: Dạy học nội dung hàm số lớp 10 theo hướng phân hóa
94 p | 28 | 5
-
Luận văn Thạc sĩ Kinh tế: Nghiên cứu hành vi của khách hàng cá nhân về việc sử dụng hình thức thanh toán không dùng tiền mặt trong mua xăng dầu tại các cửa hàng bán lẻ của Công ty xăng dầu Khu vực I tại miền Bắc
125 p | 5 | 3
-
Luận văn Thạc sĩ Kinh tế: Giải pháp Marketing nhằm nâng cao mức độ hài lòng của khách hàng với dịch vụ du lịch biển của Công ty Cổ phần Du lịch và Tiếp thị Giao thông vận tải Việt Nam - Vietravel
120 p | 6 | 2
-
Luận văn Thạc sĩ Kinh tế: Nghiên cứu các yếu tố ảnh hưởng đến truyền thông marketing điện tử của Trường Cao đẳng FPT Polytechnic
117 p | 6 | 2
-
Luận văn Thạc sĩ Quản trị kinh doanh: Nghiên cứu các nhân tố ảnh hưởng đến sự hài lòng của cán bộ nhân viên tại BIDV Quảng Nam
112 p | 6 | 2
-
Luận văn Thạc sĩ Quản trị kinh doanh: Nâng cao chất lượng đội ngũ cán bộ biên tập sách lý luận chính trị, pháp luật của Nhà xuất bản Chính trị Quốc gia - Sự thật
88 p | 4 | 2
-
Luận văn Thạc sĩ Phương pháp toán sơ cấp: Sử dụng bất biến trong giải toán sơ cấp
55 p | 7 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn