Luận văn thạc sĩ: Tìm hiểu web ngữ nghĩa, xây dựng ứng dụng tìm kiếm tài liệu tiếng Việt
lượt xem 32
download
Tìm hiểu web ngữ nghĩa, xây dựng ứng dụng tìm kiếm tài liệu tiếng Việt nhằm tìm hiểu các phương pháp bóc tách dữ liệu tự động.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Luận văn thạc sĩ: Tìm hiểu web ngữ nghĩa, xây dựng ứng dụng tìm kiếm tài liệu tiếng Việt
- 1 2 B GIÁO D C VÀ ĐÀO T O Công trình ñư c hoàn thành t i Đ I H C ĐÀ N NG Đ I H C ĐÀ N NG TR N NG C Đ C Ngư i hư ng d n khoa h c: PGS.TSKH TR N QU C CHI N TÌM HI U WEB NG NGHĨA, XÂY D NG Ph n bi n 1: TS. Nguy n Tr n Qu c Vinh NG D NG TÌM KI M TÀI LI U TI NG VI T Ph n bi n 2: PGS.TS. Lê M nh Th nh Chuyên ngành: Khoa h c máy tính Mã s : 60.48.01 Lu n văn ñư c b o v t i H i ñ ng ch m Lu n văn t t nghi p Th c sĩ k thu t h p t i Đ i h c Đà N ng vào ngày 03 tháng 03 năm 2012 TÓM T T LU N VĂN TH C SĨ K THU T Có th tìm hi u lu n văn t i: - Trung tâm Thông tin - H c li u, Đ i h c Đà N ng Đà N ng – Năm 2012 - Trung tâm H c li u, Đ i h c Đà N ng.
- 3 4 M Đ U 2. M c ñích nghiên c u 1. Lý do ch n ñ tài - Tìm hi u v công ngh , phương pháp xây d ng Web ng nghĩa và S phát tri n nhanh chóng c a khoa h c, công ngh làm cho kho các v n ñ có liên quan. ki n th c c a con ngư i ngày càng m r ng. Ngày nay, d li u c a con ngư i m t ph n l n ñư c lưu gi dư i d ng tài li u ñi n t và - Tìm hi u các phương pháp bóc tách d li u t ñ ng b ng cách s ñư c lưu gi trong các thi t b lưu tr . V i lư ng d li u ñ s như d ng các công c x lý ngôn ng thông d ng. v y, vi c tìm ki m và n m b t thông ñã tr thành m t nhu c u không - Đ xu t gi i pháp xây d ng và ti n hành xây d ng th nghi m h th thi u ñ i v i m i con ngư i. th ng tìm ki m thông tin tài li u ti ng Vi t d a trên công ngh Trong các cơ quan, doanh nghi p, th m chí là các thư vi n h u Web ng nghĩa. h t các văn b n, tài li u, sách ñ u ñư c lưu tr dư i d ng tài li u ñi n - Đưa ra m t s nh n ñ nh, ñánh giá v phương pháp ñã l a ch n ñ t . Hi n nay các công c h tr cho vi c tìm ki m các tài li u trong th nghi m và kh năng phát tri n ng d ng vào th c t . ph m vi m t cơ quan, doanh nghi p thư ng r t h n ch v m t ch c năng cũng như kh năng x lý ti ng Vi t và văn b n ti ng Vi t. 3. Đ i tư ng và ph m vi nghiên c u Do ñ c thù c a ch vi t ti ng Vi t và s phát tri n c a n n tin - D li u, tài li u, thông tin văn b n ñư c lưu tr , truy c p thông h c Vi t Nam, các văn b n ti ng Vi t ñư c lưu tr v i nhi u b ng qua máy tính và môi trư ng m ng máy tính. mã khác nhau làm cho vi c tìm ki m tr nên r t khó khăn. Các h - Các công c mã ngu n m ñư c s d ng ñ thao tác, x lý ngôn th ng tìm ki m hi n nay ñ u chưa chu n hóa b ng mã trong tài li u, ng t nhiên trên các văn b n ñư c lưu tr trong máy tính. làm cho k t qu tìm ki m có th b sai l ch. Các h th ng tìm ki m hi n nay h u h t ñ u tìm theo t khóa, không h tr vi c tìm ki m - ng d ng bóc tách và khai thác d li u, ph c v tìm ki m theo theo ng nghĩa ñi u này làm h n ch kh năng tìm ki m cũng như ng nghĩa cho văn b n ti ng Vi t. kh năng h tr ngư i s d ng trong quá trình tìm ki m trên h th ng 4. Phương pháp nghiên c u tìm ki m. Lu n văn s d ng các phương pháp nghiên c u như sau: T th c t ñó, vi c xây d ng m t h th ng tìm ki m có th d dàng tri n khai trong môi trư ng cơ quan, doanh nghi p và có kh - Th nh t, tìm hi u và ñánh giá các k t qu nghiên c u v các năng “hi u” ng nghĩa ti ng Vi t, x lý văn b n ti ng Vi t là c n phương pháp x lý ngôn ng t nhiên, công ngh Web ng thi t. Vì v y tôi th c hi n ñ tài“Tìm hi u web ng nghĩa xây d ng nghĩa ñang ñư c phát tri n hi n nay. ng d ng tìm ki m tài li u ti ng Vi t”.
- 5 6 - Th hai, t k t qu thu ñư c c a bư c th nh t, l a ch n 7. C u trúc c a lu n văn phương pháp xây d ng ng d ng. Sau ph n m ñ u, lu n văn g m có 3 chương và ph n k t lu n. - Th ba, t phương pháp ñã l a ch n, tìm ki m công c thích Các chương c a lu n văn bao g m: h p ñ xây d ng ng d ng. - Chương 1, “T ng quan v Web ng nghĩa”. Chương này T gi i pháp và công c ñã l a ch n ñư c, ti n hành xây d ng cung c p cho chúng ta cái nhìn t ng quan v công ngh Web ng d ng tìm ki m tài li u ti ng Vi t. hi n t i và Web ng nghĩa. Phân bi t nh ng ñi m khác nhau cơ b n gi a Web và Web ng nghĩa cũng như trình bày m t 5. Ý nghĩa khoa h c và th c ti n c a ñ tài s ngôn ng , công c và công ngh hi n có ñ xây d ng ng V m t khoa h c, ñ tài ti p c n v n ñ x lý ngôn ng t nhiên d ng Web ng nghĩa. m t cách t ñ ng d a trên công ngh Web ng nghĩa. Đi u này góp - Chương 2, “Ontology và phương pháp xây d ng ph n làm cho vi c tìm ki m tr nên chính xác và hi u qu hơn. Ph c Ontology”. Chương này s trình bày khái ni m, các v cho vi c gi i quy t bài toán bóc tách d li u t văn b n. thành ph n, ngôn ng , phương pháp và công c ñ xây V m t th c ti n, ñ tài ñưa ra ñư c phương pháp xây d ng m t d ng Ontology . ng d ng x lý ngôn ng d a trên nh ng công c x lý ngôn ng t - Chương 3, “Xây d ng ng d ng tìm ki m tài li u ti ng nhiên có s n và bư c ñ u xây d ng ng d ng minh h a. Vi t”. Chương này s mô t các bư c xây d ng ng d ng tìm 6. Gi i pháp ki m tài li u ti ng Vi t và các k t qu ch y th nghi m. Đ xây d ng ñư c ng d ng tìm ki m tài li u ti ng Vi t, ñ tài Ph n k t lu n, t ng h p các k t qu nghiên c u c a lu n văn. có th có gi i pháp như sau: Các k t qu ñ t ñư c, h n ch c a lu n văn. Thông qua các k t qu - Xây d ng Ontology ti ng Vi t cho m t s lĩnh v c nh m ñ t ñư c c a lu n văn, ñ xu t hư ng phát tri n ti p theo cho ñ tài. minh h a cho ng d ng. - L a ch n công c ñ xây d ng chú gi i cho các văn b n ti ng Vi t d a trên Ontology ñã có. - Xây d ng ng d ng tìm ki m ng nghĩa d a trên chú gi i ñã gán cho các văn b n ti ng Vi t.
- 7 8 Vì v y, n u như các thành ph n chính y u c a d li u trong Chương 1 - T NG QUAN Web trình bày theo d ng th c thông thư ng, thì r t khó s d ng d V WEB NG NGHĨA li u này m t cách ph bi n ñ có th mô t ñư c m i quan h như 1.1. Công ngh Web hi n t i và nh ng h n ch tương t trên. M t thi u sót c a Web hi n nay là thi u cơ c u hi u qu ñ chia s d li u khi ng d ng ñư c phát tri n m t cách ñ c l p. Kh i lư ng kh ng l các tài nguyên trên Web làm n y sinh v n Do dó c n ph i m r ng Web ñ máy có th hi u, tích h p d li u, ñ nghiêm tr ng là làm th nào ñ tìm ki m chính xác tài nguyên cũng như tái s d ng d li u thông qua các ng d ng khác nhau. mình mong mu n. D li u trong các file HTML – ngôn ng trình bày d li u c a công ngh Web hi n t i- h u ích trong m t vài ng c nh 1.2. Web có ng nghĩa nhưng vô nghĩa ñ i v i nh ng ng c nh khác. Thêm vào ñó HTML T nh ng h n ch , v n ñ v m t khai thác d li u c a công không th mô t v d li u ñóng gói trong nó. Hi n nay, h u h t các ngh Web hi n t i ñã thúc ñ y s ra ñ i c a ý tư ng Web ng nghĩa công c tìm ki m tài li u trên Web ñư c coi là tìm ki m hi u qu (Semantic Web ), m t th h m i c a Web , mà chính cha ñ c a cũng ch y u tìm ki m ñư c trên b n i c a Web . Trong khi t ng World Wide Web là Tim Berners-Lee ñ xu t vào năm 1998. Web sâu c a Web ch a m t kh i lư ng thông tin kh ng l và thư ng r t ng nghĩa là s m r ng c a Web hi n t i mà trong ñó thông tin có giá tr cho các nhà nghiên c u, các h c gi hay ñơn thu n là nh ng ñư c ñ nh nghĩa rõ ràng sao cho con ngư i và máy tính có th cùng ngư i thích tìm hi u. Bên c ch ñó, các trang Web hi n nay có r t ít làm vi c v i nhau m t cách hi u qu hơn. M c tiêu c a Web có ng ñư ng liên k t v i các trang Web khác nên vi c tìm ki m là khó nghĩa là ñ phát tri n các chu n chung và công ngh cho phép máy khăn. Ngoài ra, thông tin tìm ki m ñư c không theo ch ñ mà ch là tính có th hi u ñư c nhi u hơn thông tin trên Web , sao cho chúng v n ñ tìm tho theo t khoá ñơn thu n, k t qu tìm ki m ph i do con có th h tr t t hơn vi c khám phá thông tin (thông tin ñư c tìm ngư i ch n l i theo ch ñ mong mu n. ki m nhanh chóng và chính xác hơn), tích h p d li u (d li u liên Ví d , khi chúng ta bi t tên m t qu c gia và mu n tìm tên th k t ñ ng), và t ñ ng hóa các công vi c. ñô c a qu c gia ñó. Vì m i qu c gia có m t th ñô khác nhau và Web không bi u di n ñư c m i liên h này, nên chúng ta không nh n 1.3. Ki n trúc c a Web ng nghĩa ñư c ñi u chúng ta mong ñ i. Trái l i, ñ i v i Semantic Web, chúng ta có th ch ra ki u c a m i liên h này; ví d , tên qu c gia có tên Web ng nghĩa là m t t p h p các ngôn ng . T t c các l p th ñô tương ng. c a Web ng nghĩa ñư c s d ng ñ ñ m b o ñ an toàn và khai thác thông tin m t cách t t nh t.
- 9 10 Web ng nghĩa ñư c xây d ng trên n n h th ng web hi n t i. Web 1.4.2. T ng XML và XML Schema ng nghĩa ñư c coi là s m r ng c a Web hi n t i có b sung thêm XML là m t m r ng c a ngôn ng ñánh d u cho các các ng nghĩa vào d li u trên web. Hình 3 ch ra sơ ñ ki n trúc c a c u trúc tài li u b t kỳ. Web ng nghĩa. 1.4.3. T ng RDF - RDF Schema RDF (Resource Description Framework) là n n t ng c a Web ng nghĩa và x lý metadata, ñư c ñ nh nghĩa b i t ch c W3C. RDF cho phép trao ñ i thông tin gi a các ng d ng trên Web mà máy có th hi u ñư c. 1.4.4. T ng Ontology Ontology là m t t p các khái ni m và quan h gi a các khái ni m ñư c ñ nh nghĩa cho m t lĩnh v c nào ñó nh m vào vi c bi u di n và trao ñ i thông tin. 1.4.5. T ng logic Hình 1.1: Ki n trúc c a web ng nghĩa Khai báo các nguyên t c logic và cho phép máy tính suy di n (b ng cách suy lu n) b ng cách dùng nh ng nguyên t c này. 1.4. Vai trò c a các t ng trong Web ng nghĩa 1.4.6. T ng Proof 1.4.1. T ng ñ nh danh tài nguyên-URI Chúng ta s xây d ng các h hi u logic và dùng chúng ñ URI - Uniform Resource Identifier, URI ñơn gi n ch là m t ch ng minh. M i ngư i trên th gi i có th vi t các khai báo logic. ñ nh danh Web gi ng như các chu i b t ñ u b ng “http” hay “ftp” mà Sau ñó máy tính có th theo nh ng liên k t ng nghĩa này ñ ki m b n thư ng xuyên th y trên m ng. B t kỳ ai cũng có th t o m t URI, ch ng. và có quy n s h u chúng. 1.4.7. T ng Trust T ng này nh m ñ m b o tính tin c y c a các ng d ng trên Web ng nghĩa.
- 11 12 1.5. Các ngôn ng ñư c s d ng trong Web ng nghĩa RDF Container 1.5.1. XML–Ngôn ng ñánh d u m r ng RDF Collection XML là m t ñ c t cho các tài li u mà máy tính ñ c ñư c. 1.5.2.3. Lư c ñ RDF- RDF Schema Đánh d u có nghĩa là các chu i ký t nào ñó trong tài li u có ch a - Đ nh nghĩa class (l p) thông tin ch ra vai trò n i dung c a tài li u. ñánh d u mô t sơ ñ d li u c a tài li u và c u trúc logic. Các ñánh d u này làm thông Các tài nguyên trên Web có th chia thành các nhóm g i là class. tin t mô t tùy vào c m nh n. Các ñánh d u này ñư c mô t Các thành viên ( member) c a nhóm ñư c xem như là th hi n c a dư i d ng các t trong d u ngo c nh n hay còn g i là tag. l p ñó. Class cũng chính là tài nguyên. Nó ñư c nh n ra thông qua các ñ nh danh URI và có th ñư c mô t b ng cách s d ng các RDF 1.5.2. RDF - Bi u di n d li u v d li u properties. XML cung c p cú pháp ñ mã hóa d li u, RDF là m t cơ c u - Đ nh nghĩa thu c tính (property) ch ra ñi u gì ñó v d li u. Như tên g i, RDF là m t mô hình ñ bi u di n d li u v "m i th trên Web". RDF Schema cũng cung c p m t b t v ng ñ mô t làm th nào mà các thu c tính (property) và l p (class) có th ñư c s 1.5.2.1. Các khái ni m cơ b n d ng cùng v i nhau trong d li u RDF. Namespace và cách khai báo 1.5.2.4. Truy v n d li u trong rdf Qualified name (QName) và cách s d ng SPARQL là m t ngôn ng ñ truy c p thông tin t các ñ th Mô hình RDF RDF. Nó cung c p các tính năng sau: B ba RDF (RDF Tripple) - Trích thông tin trong các d ng c a URI, các nút r ng và các d li u nguyên th y hay giá tr ñư c ñ nh nghĩa t d li u nguyên Đ th RDF th y. D li u nguyên th y(Literal) - Trích thông tin t các ñ th con. 1.5.2.2. C u trúc RDF/XML - Xây d ng m t ñ th RDF m i d a trên thông tin trong ñ th Cú pháp RDF/XML cơ b n truy v n.
- 13 14 Chương 2 - ONTOLOGY VÀ 2.1.2. Các thành ph n c a Ontology PHƯƠNG PHÁP XÂY D NG ONTOLOGY L p (class) là m t b nh ng th c th , các th c th ñư c mô t logic ñ ñ nh nghĩa các ñ i tư ng c a l p; l p ñư c xây d ng theo 2.1. Gi i thi u Ontology c u trúc phân c p cha con như là m t s phân lo i các ñ i tư ng. 2.1.1. Khái ni m Ontology Th c th ñư c xem là th hi n c a m t l p, làm rõ hơn v l p ñó và có th ñư c hi u là m t ñ i tương nào ñó trong t nhiên (England, Trong nh ng năm g n ñây, thu t ng “Ontology” không ch Manchester United, b nh s i, th y ñ u…). ñư c s d ng trong các phòng thì nghi m trên lĩnh v c trí tu nhân t o mà ñã tr nên ph bi n ñ i v i nhi u mi n lĩnh v c trong ñ i Thu c tính (Property) th hi n quan h nh phân c a các th c s ng . Đ ng trên quan ñi m c a ngành trí tu nhân t o, m t Ontology th (quan h gi a hai th c th ) như liên k t hai th c th v i nhau. Ví là s môt t v nh ng khái ni m và nh ng quan h c a các khái ni m d thu c tính “làm cho” liên k t hai th c th “ngư i” và “công ty” ñó nh m m c ñích th hi n m t góc nhìn v th gi i. Trên mi n ng v i nhau. d ng khác c a khoa h c, m t Ontology bao g m t p các t v ng cơ Thu c tính (property) có 4 lo i (1) Functional: M t th c th ch b n hay m t tài nguyên trên m t mi n lĩnh v c c th , nh ñó nh ng liên quan nhi u nh t ñ n m t th c th khác, ví d thu c tính “có nhà nghiên c u có th lưu tr , qu n lý và trao ñ i tri th c cho nhau hương v ” ñ i v i các th c th l p “th c_ăn”; (2) Inverse Functional: theo m t cách ti n l i nh t. Thu c tính ñ o ngư c c a Functional, thu c tính “là hương v c a”; Hi n nay t n t i nhi u khái ni m v Ontology, trong ñó có (3) Transitive: Th c th a quan h v i th c th b, th c th b quan h nhi u khái ni m mâu thu n v i các khác ni m khác, khóa lu n này v i th c th c thì th c th a quan h v i th c th c; (4) Symmetric: ch gi i thi u m t ñ nh nghĩa mang tính khái quát và ñư c s d ng Th c th a quan h v i th c th b thì th c th b quan h v i th c th khá ph bi n ñư c Kincho H. Law ñưa ra: “Ontology là bi u hi n a. m t t p các khái ni m (ñ i tư ng), trong m t mi n c th và nh ng Thu c tính có 3 ki u th hi n: m i quan h gi a các khái ni m này”. Ontology chính là s t ng h p - Object Property: Liên k t th c th này v i th c th khác c a m t t p t v ng chia s và các miêu t ý nghĩa c a t ñó theo cách mà máy tính hi u ñư c. - DataType Property: Liên k t th c th v i ki u d li u XML Schema, RDF literal - Annotation Property: Thêm các thông tin metadata v l p, thu c tính hay th c th khác thu c 2 ki u trên.
- 15 16 2.1.3. M t s công trình liên quan t i xây d ng Ontology Ontology này ch y u t p trung trong các lĩnh v c y t và cũng ñư c s d ng trong các bài toán x lý ngôn ng t nhiên: truy h i thông Ngày nay, Ontology ñư c s d ng r t nhi u trong các lĩnh v c tin (Information Retrieval – IR), trích ch n thông tin, phân l p và liên quan ñ n ng nghĩa như trí tu nhân t o (AI), semantic web, kĩ tóm t t văn b n. ngh ph n m m, v.v… Vì nh ng ng d ng c a Ontology nên không ch riêng Vi t Nam, trên th gi i ñã có nhi u d án t p trung xây DBpedia Ontology là m t ontology t ng quát, bao trùm nhi u d ng Ontology ñ i v i t ng mi n d li u khác nhau và ph c v cho lĩnh v c. Ontology này ñư c t o ra b ng cách l y thông tin ph bi n nhi u m c ñích ña d ng khác nhau. Đ i v i mi n d li u y t có th trên Wikipedia và xây d ng l i m t cách th công. Hi n nay, k t i r t nhi u Ontology trong lĩnh v c y t , sinh h c ñã ñư c ñưa ra DBpedia ñã có hơn 320 l p phân c p bao g m nhi u lĩnh v c ñư c b i t ch c The National Center for Biomedical Ontology. D án mô t b i hơn 1650 thu c tính khác nhau. này ñã ñưa ra ñư c r t nhi u Ontology trong y t cũng như trong sinh h c, ví d như Ontology v cell type, Gene, FMA, Human 2.2. Phương pháp xây d ng Ontology disease…danh sách các Ontology ñưa ra ñư c hi n th trong. 2.2.1. Xây d ng Ontology Ngoài ra có th k t i Disease Ontology là m t t p t v y Ngày nay, vi c nghiên c u quá trình xây d ng ontology ngày khoa ñư c phát tri n t i Bioinformatics Core Facility cùng v i s càng ñư c quan tâm nhi u hơn. Có r t nhi u nhóm sau quá trình c ng tác c a d án NuGene Project t i trung tâm Center for Genetic nghiên c u ñã ñưa ra các phương pháp khác nhau nh m xây d ng Medicine. Ontology này ñư c thi t k v i m c ñích s p x p các b nh Ontology. và các ñi u ki n tương ng ñ i v i nh ng code v y t c th như là ICD9CM, SNOMED và nh ng cái khác….Disease Ontology cũng N i dung chương này s ñ c p ñ n m t s nguyên t c cơ b n ñư c s d ng ñ liên k t nh ng ki u hình sinh v t m u ñ i v i các c a vi c xây d ng Ontology qua các các công ño n c th sau ñây: b nh c a con ngư i cũng như trong vi c khai phá d li u y h c. Các bư c c th như sau: Disease Ontology ñư c th c hi n như là m t ñ th xo n có hư ng và s d ng UMLS (Unified Medical Language System) là t p t v ng - Bư c 1, xác ñ nh mi n quan tâm và ph m vi c a Ontology ñ truy c p các Ontology v y t khác như ICD9CM. - Bư c 2, xem xét vi c k th a các Ontology có s n M t ontology ti ng Anh ñư c ñ c p r t nhi u trong lĩnh v c y - Bư c 3, li t kê các thu t ng quan tr ng trong Ontology t trong th i gian g n ñây ñó là GENIA. M c ñích chính mà ontology - Bư c 4, xây d ng các l p và c u trúc l p phân c p này hư ng t i ñó là s ph n ng l i c a t bào trong não ngư i.
- 17 18 - Bư c 5, ñ nh nghĩa các thu c tính và quan h cho l p 2.2.3. Công c xây d ng Ontology - Bư c 6, ñ nh nghĩa các ràng bu c v thu c tính và quan h V m t lý thuy t, ngư i xây d ng và qu n tr Ontology có th c al p không c n các công c h tr , thay vào ñó có th th c hi n tr c ti p b ng các ngôn ng . Tuy nhiên, cách th hai s không kh thi khi - Bư c 7, t o các th c th cho l p Ontology có kích thư c l n và c u trúc ph c t p. Thêm vào ñó, vi c 2.2.2. Ngôn ng xây d ng Ontology xây d ng và qu n tr Ontology không ch ñòi h i vi c t o c u trúc l p Hi n t i, các ngôn ng xây d ng ontology (ngôn ng ontology) phân c p, ñ nh nghĩa các thu c tính, ràng bu c.., mà còn bao hàm vi c ñi n hình bao g m LOOM, LISP, Ontolingua, XML, SHOE, OIL, gi i quy t các bài toán liên quan trên nó. Có r t nhi u bài toán liên quan DAML+OIL và OWL. ñ n m t h th ng Ontology như: 2.2.2.1. RDFS (RDF-Schema) - Tr n hai hay nhi u Ontology. RDFS là m t ngôn ng Ontology cơ b n. Nó ñư c phát tri n - Chu n ñoán và phát hi n l i. t ng trên c a RDF cho nên b n thân RDF-Schema cũng chính là - Ki m tra tính ñúng ñ n và ñ y ñ . RDF, nó ñư c m r ng t RDF và b sung thêm các t p t v ng ñ - Ánh x qua l i gi a các Ontology. h tr cho vi c xây d ng các Ontology ñư c d dàng. - Suy lu n trên Ontology. 2.2.2.2. OWL (Ontology Web Language) - Sao lưu và ph c h i m t Ontology. OWL là ngôn ng ontology khá m nh, nó ra ñ i sau RDFS nên - Xóa, s a và tinh ch nh các thành bên trong Ontology. bi t k th a nh ng l i th c a ngôn ng này ñ ng th i b sung thêm nhi u y u t giúp kh c ph c ñư c nh ng h n ch c a RDFS. OWL - Tách bi t Ontology v i ngôn ng s d ng (DAML, OWL,..). giúp tăng thêm y u t logic cho thông tin và kh năng phân lo i. Nh ng khó khăn trên ñã khi n các công c tr thành m t thành ph n không th thi u, quy t ñ nh ñ n ch t lư ng c a m t h th ng 2.2.2.3. DAML + OIL Ontology. Hi n có r t nhi u công c có kh năng h tr ngư i thi t k DAML+ OIL ra ñ i nh m kh c ph c nh ng h n ch v ki u d gi i quy t nh ng bài toán liên quan. Có th k ra m t s như: Sesame, li u trong các ngôn ng Ontology trư c ñó là RDF, RDFS. DAML + Protégé, Ontolingua, Chimaera, OntoEdit, OidEd.. OIL (g i t t là DAML) là ngôn ng ñánh d u cho các tài nguyên trên Web, có h tr suy lu n.
- 19 20 N i dung ph n này s ñ c p gi i thi u sơ lư c m t s công c xây d ng và qu n tr Ontology và s trình bày chi ti t hai công c là Chương 3 - XÂY D NG NG D NG Protégé và Chimaera. TÌM KI M TÀI LI U TI NG VI T 2.2.3.1. Protégé 3.1. Mô t ng d ng Protégé là b ph n m m mã ngu n m Java n i ti ng. Protégé ñư c nghiên c u và phát tri n t năm 1998 b i nhóm nghiên c u c a ng d ng có th th c hi n tìm ki m trong kho d li u c a Mark Musen, ĐH. Stanford nh m qu n lý các thông tin trong lĩnh mình bao g m vi c tìm ki m trong các tài li u và trong Ontology ñã v c sinh y h c. Đây là d án ñư c nh n ñư c s quan tâm và tài tr ñư c xây d ng s n. Các tài li u bao g m các t p tin d ng văn b n t r t nhi u t ch c, trong ñó có B Qu c Phòng M . như: file text, m t trang Web,...Ontology ñóng vai trò x lý gán chú gi i ng nghĩa cho các tài li u cũng như x lý câu truy v n do ngư i 2.2.3.2. Chimaera dùng nh p vào. Chimaera cũng là m t ng d ng khác ñư c phát tri n b i ñ i K t qu tr v là m t ho c nhi u tài li u trong kho d li u c a h c Stanford, v i m c ñích ban ñ u nh m gi i quy t hai v n ñ là: ng d ng. tr n các Ontology và chu n ñoán l i, phân tích tính nh t quán gi a các Ontology phân tán. Hình 3.1: Mô hình h th ng ng d ng tìm ki m tài li u ti ng Vi t
- 21 22 3.2. Xây d ng ng d ng 3.2.3. Chú gi i cho tài li u D a vào mô t trên c a ng d ng c n xây d ng, các bư c ñ Chú gi i ng nghĩa là quá trình chèn nh ng nhãn trong m t tài xây d ng ng d ng bao g m: li u ñ gán ng nghĩa cho nh ng ño n văn b n cho phép ñ t o ra nh ng tài li u có th x lý ñư c b ng nh ng tác nhân t ñ ng. - Xây d ng Ontology cho ng d ng. Lu n văn tích h p Ontology ñã xây d ng vào công c Gate ñ - Xây d ng ch c năng t o chú gi i cho tài li u d a trên chú thích d li u. Ontology ñã xây d ng 3.2.4. X lý truy v n - Xây d ng ch c năng x lý câu truy v n và truy v n d li u d a trên yêu c u truy v n c a ngư i dùng. Đ x lý m t truy v n d li u ta c n qua hai bư c: x lý truy v n trong Ontology và x lý truy v n trong kho d li u ñã chú gi i. 3.2.1. Công c và ngôn ng l p trình X lý truy v n trong Ontology ta c n dùng Framework Jena, nó Trong lu n văn này, tôi tích h p các ti n ích trong các b công cung c p ñ y ñ các phương th c ñ truy c p, thao tác trên Ontology c Protégé, Gate (General Architecture for Text Mining) ñ xây d ng ñã xây d ng thông qua vi c truy v n d a trên cú pháp c a ngôn ng ontology, chú thích d li u và nh n d ng th c th ti ng Vi t. truy v n SPARQL. Gate là m t ki n trúc ph n m m ñ phát tri n và tri n khai các b ph n ph n m m ph c v công vi c x lý ngôn ng c a con ngư i. 3.3. Cài ñ t và th nghi m ng d ng 3.2.2. Xây d ng Ontology D a vào các công c , phương pháp th c hi n trên ta ti n Đ xây d ng Ontology cho ng d ng ta d a vào phương pháp hành vi c cài ñ t ng d ng. xây d ng Ontology ñã ñư c trình bày trên cùng v i công c là ph n 3.3.1. Cài ñ t ng d ng m m Protégé. 3.3.1.1. Môi trư ng cài ñ t Vi c xây d ng Ontology d a trên Ontology có s n là PROTON. Môi trư ng cài ñ t ng d ng, bao g m các môi trư ng ph n c ng, ph n m m.
- 23 24 3.3.1.2. Các bư c th c hi n K T LU N Qui trình thi t k , xây d ng ng d ng theo trình t d a trên môi trư ng cài ñ t th nghi m như ñã l a ch n. 1. K t lu n 3.3.2. Ch y th nghi m và k t qu ñ t ñư c K t qu nghiên c u ñ tài gói g n trong ph m vi v Web ng nghĩa và xây d ng m t ng d ng tìm ki m nh m minh h a cho 3.3.2.1. D li u th nghi m nh ng ki n th c ñã ñ t ñư c. Mô t d li u th nghi m ñư c s d ng c a chương trình Đ tài ñã nghiên c u, ti p c n công ngh Web ng nghĩa, các th nghi m ñ ti n hành ch y th . v n ñ cơ b n và t ng quát v Web ng nghĩa và ñã ñư c m t s k t 3.3.2.2. K t qu qu nh t ñ nh. N m ñư c công ngh v Web ng nghĩa, ñi m khác bi t gi a K t qu th c hi n chương trình như sau: công ngh Web ng nghĩa và Web truy n th ng. Nh ng ñi m m nh - Yêu c u 1 c a Web ng nghĩa so v i công ngh Web hi n t i cũng như nh ng h n ch c a công ngh Web mà chúng ta ñang s d ng. Th c hi n truy v n v i yêu c u: “tìm t t c các tài li u có ch a thông tin c a ít nh t m t ñ a danh” Tìm hi u ñư c ki n trúc c a Web ng nghĩa, các thành ph n c a Web ng nghĩa cũng như vai trò c a các thành ph n c a nó. - Yêu c u 2 Tìm hi u ñư c RDF, là m t n n t ng ñóng vai trò quan tr ng Th c hi n truy v n v i yêu c u: “tìm t t c các tài li u ch a trong ki n trúc c a Web ng nghĩa. Các khái ni m, thành ph n, công thông tin v ñ a danh có ch a thông tin là Đà N ng” c cũng như các ngôn ng ñ t t ñư c s d ng ñ xây d ng mô t v 3.3.3. Đánh giá RDF. ng d ng minh h a ñã cài ñ t thành công trên máy ch Web Cách th c truy v n thông tin trong RDF b ng ngôn ng Tomcat, th c hi n ñư c yêu c u ñ t ra. Th c hi n truy v n và tr v SPARQL. Nghiên c u ñư c cú pháp, cách xây d ng truy v n cũng k t qu phù h p v i yêu c u c a chương trình ñã trình bày trên. như cách x lý d li u trong ngôn ng truy v n d li u b ng ngôn K t qu tr v c a ng d ng chưa ñư c s p x p m t cách h p ng SPARQL. lý. Các tài li u có th b trùng l p trong danh sách k t qu tr v , th Tìm hi u c u trúc, phương pháp bi u di n ngôn ng suy di n t các tài li u không ñư c s p x p mà trình bày m t cách ng u nhiên. OWL nh m xây d ng Ontology.
- 25 26 Áp d ng nh ng lý thuy t ñã tìm hi u ñư c trên, ñ tài ñã xây Vi c x lý ti ng Vi t và câu ti ng Vi t còn h n ch . ng d ng d ng ñư c ng d ng minh h a nh m ng d ng công ngh Web ng s d ng b tách t m c ñ nh c a công c Gate nên ch có th chú gi i nghĩa. ng d ng xây d ng ñư c cho phép ngư i s d ng có th tìm cho các th c th có tên n m trong Ontology. ng d ng không có kh ki m tài li u mình c n theo ng nghĩa. Ngư i dùng có th nh p d năng chú gi i cho câu ti ng Vi t, cũng như vi c tách t ti ng Vi t và li u và tìm ki m theo ng nghĩa thông qua giao di n ngư i dùng là 1 phân tích cú pháp câu theo ng pháp ti ng Vi t. Website. 2.2. Hư ng phát tri n C p nh t d li u v Ontology, các th c th trong Ontology Đ ñ tài có th tr thành m t ng d ng có th s d ng ñư c thông qua ng d ng Gate. trong th c t ta c n phát tri n thêm m t s khía c nh sau v m t công C p nh t kho d li u tìm ki m. ngh và xây d ng thêm Ontology cho ng d ng. Thông qua vi c xây d ng ng d ng, tìm hi u ñư c m t s công Ti p t c nghiên c u và ti p c n các nghiên c u m i nh t v c h tr cho vi c phát tri n Web ng nghĩa như: Protégé, Gate, công ngh Web ng nghĩa. Vi c này giúp ta có th có ñư c nh ng KIM, Jena và ngôn ng l p trình Java. phương pháp ti p c n m i, s d ng các công c hi u qu hơn giúp ta có th c i ti n các phương pháp ti n ñ n áp d ng cho chính mình. Đây là cách x lý d li u d a trên các công c mã ngu n m cũng là xu hư ng nghiên c u m r ng các ng d ng x lý ngôn ng Tìm hi u và phát tri n b công c tách t trong ti ng Vi t t nhiên c a hi n t i và tương lai. nh m áp d ng thay th cho công c tách t c a Gate. 2. Nh n xét và hư ng phát tri n Tìm hi u và xây d ng công c có th nh n d ng và hi u ñư c ng pháp ti ng Vi t ñ nâng cao s chính xác trong vi c xây d ng 2.1. Nh n xét chú gi i ng nghĩa cho tài li u ti ng Vi t. Đ tài ñã trình bày m t cách ng n g n và ñ y ñ v công ngh M r ng và làm giàu Ontology c a ng d ng. Web ng nghĩa. Xây d ng ñư c m t ng d ng hoàn ch nh nh m minh h a cho lý thuy t ñã tìm hi u ñư c. Do Ontology c a ng d ng c a còn h n ch nên vi c tìm ki m chưa th mang l i k t qu chính xác và ñ y ñ
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Tóm tắt Luận văn Thạc sĩ Luật học: Xử lý hợp đồng lao động vô hiệu theo pháp luật Việt Nam
19 p | 276 | 71
-
Luận văn Thạc sĩ Ngôn ngữ học: Tìm hiểu ca từ của nhạc sĩ trẻ (qua các ca khúc tiếng Việt được yêu thích trên trang mạng mp3.zing.vn trong năm 2012)
341 p | 180 | 39
-
Luận văn thạc sĩ Sinh học: Tìm hiểu ảnh hưởng của liều lượng và thời điểm bón phân Kali đến khả năng chịu hạn cho giống ngô CP 888 tại xã EaPhê huyện Krông Pắc tỉnh Đăk Lăk
110 p | 180 | 31
-
Luận văn Thạc sĩ Quản trị kinh doanh: Nâng cao chất lượng cán bộ, công chức cấp xã tại Yên Khánh Ninh Bình
0 p | 137 | 29
-
Luận văn thạc sĩ: Tìm hiểu công nghệ tri thức, xây dựng hệ thống hỏi đáp phục vụ giảng dạy môn Vật Lý trường THPT
13 p | 114 | 27
-
Tóm tắt luận văn Thạc sĩ Kỹ thuật: Ứng dụng web ngữ nghĩa và khai phá dữ liệu xây dựng hệ thống tra cứu, thống kê các công trình nghiên cứu khoa học
26 p | 158 | 17
-
Tóm tắt luận văn Thạc sĩ: Tìm hiểu mô hình quản lý và truy xuất dữ liệu đám mây IDRAGON ứng dụng cho thiết bị di động
29 p | 133 | 16
-
Luận văn thạc sĩ: Tìm hiểu ngữ nghĩa tiếng Việt xây dựng kho ngữ vựng dựa nghĩa trong xử lý tiếng Việ
26 p | 113 | 12
-
Luận văn thạc sĩ: Tìm hiểu hiện tượng nhập nhằng trong tiếng Việt và khả năng khắc phục trong soạn thảo văn bản
26 p | 63 | 12
-
Luận văn Thạc sĩ Công nghệ thông tin: Ứng dụng đồ thị Euler tối ưu hóa bài toán tìm đường đi ngắn nhất
79 p | 48 | 10
-
Luận văn Thạc sĩ Công tác xã hội: Dịch vụ công tác xã hội trong hỗ trợ tìm kiếm việc làm cho người nghèo tại xã Võng Xuyên, huyện Phúc Thọ, thành phố Hà Nội
154 p | 39 | 9
-
Tóm tắt luận văn Thạc sĩ Kỹ thuật: Khai phá luật kết hợp mờ đa cấp và ứng dụng
26 p | 127 | 8
-
Luận văn thạc sĩ: Tìm hiểu công nghệ kim xây dựng ứng dụng chú giải ngữ nghĩa tự động
14 p | 71 | 5
-
Luận văn Thạc sĩ Máy tính: Nghiên cứu thuật toán filter-wrapper tìm tập rút gọn của bảng quyết định không đầy đủ và ứng dụng phát hiện tàu thuyền từ ảnh vệ tinh
67 p | 23 | 5
-
Luận văn Thạc sĩ Công nghệ thông tin: Kỹ thuật Matrix Factorization trong xây dựng hệ tư vấn
74 p | 39 | 4
-
Luận văn Thạc sĩ ngành Máy tính: Ứng dụng mã nguồn mở ElasticSearch vào hệ thống tìm kiếm danh bạ y tế hiệu quả
98 p | 38 | 4
-
Luận văn Thạc sĩ Luật học: Tìm hiểu pháp luật quốc tế, pháp luật một số nước trên thế giới và liên hệ với pháp luật Việt Nam về hoạt động thăm dò, khai thác, sử dụng khoảng không vũ trụ
138 p | 22 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn