Luận văn: Tìm kiếm ngữ nghĩa ứng dụng trên lĩnh vực eDoc
lượt xem 16
download
Hiện nay, hầu hết các hệ thống tìm kiếm trên Internet đều đi theo hướng truyền thống đó là tìm kiếm theo từ khóa (key word). Theo cách tìm kiếm này, khi ta gõ vào từ cần tìm, các hệ thống tìm kiếm sẽ hiển thị các tài liệu mà trong nó có chứa từ khóa cần tìm. Do đó, kết quả trả ra là một danh sách rất nhiều các tài liệu, mà có thể các tài liệu này không liên quan gì tới nội dung cần tìm. Và đôi khi các hệ thống này không đưa ra hết...
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Luận văn: Tìm kiếm ngữ nghĩa ứng dụng trên lĩnh vực eDoc
- L IC M N u tiên, chúng em xin g i l i c m n n Th y, Cô khoa Công ngh Thông tin tr ng i h c Khoa h c T nhiên ã t n tình d y d , dìu d t chúng em su t b n n m i h c. Chúng em c m n Cô Ph m Th B ch Hu , ng i t n tình h ng d n, giúp , ng viên chúng em hoàn thành lu n v n này. Cu i cùng, chúng con c m n Ba, M và nh ng ng i thân ã khích l , h tr , ng viên chúng con trong th i gian h c t p, nghiên c u có c thành qu nh ngày nay. Tháng 7 n m 2005 Sinh viên Ph m Th M Ph ng – T Th Ng c Thanh 1
- NH N XÉT C A GIÁO VIÊN H NG D N …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… ………………………………………………………………………………….... …………………………………………………………………………………… Ngày…… tháng……n m 2005 Ký tên 2
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc NH N XÉT C A GIÁO VIÊN PH N BI N …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………….……………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………… Ngày…… tháng……n m 2005 Ký tên 0112274 – Ph m Th M Ph ng -3- 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc M CL C M U.................................................................................................................................10 Ch ng 1 : T NG QUAN.....................................................................................................11 1.1. "t v#n ................................................................................................................ 11 1.2. Bài toán gi i quy t ................................................................................................... 13 1.3. H ng ti p c n......................................................................................................... 14 Ch ng 2 : C S LÝ THUY T ........................................................................................17 2.1. Chi n l c tìm ki m thông tin c$a các b tìm ki m (Search Engine) ..................... 17 2.1.1. M t s search engine thông d!ng: ................................................................... 17 2.1.2. Chi n l c tìm ki m ........................................................................................ 32 Nguyên lý ho t ng........................................................................................................ 34 2.2. Semantic Web .......................................................................................................... 34 2.2.1. Khái ni m......................................................................................................... 34 2.2.2. Ki n trúc .......................................................................................................... 36 2.2.3. Các thách th c "t ra cho Semantic web ......................................................... 37 2.2.4. So sánh web và web ng ngh a........................................................................ 41 2.2.5. Các khái ni m liên quan................................................................................... 42 2.2.6. Ontology .......................................................................................................... 44 2.2.7. Rdf ................................................................................................................... 46 2.3. eDoc ......................................................................................................................... 55 2.3.1. Tìm hi u eLearning.......................................................................................... 55 2.3.2. Tìm hi u eLib................................................................................................... 61 2.3.3. Tìm hi u eDoc ................................................................................................. 68 2.4. M t s v#n trong x% lí ngôn ng t nhiên: ......................................................... 71 2.4.1. V#n trong vi c x% lí v n b n:...................................................................... 72 2.4.2. V#n x% lí ng ngh a: ................................................................................... 72 2.4.3. Phân lo i v n b n (Text Classification)........................................................... 82 Ch ng 3 : MÔ HÌNH VÀ GI I THU T ..........................................................................84 3.1. Công ngh tìm ki m ng ngh a trên th gi i hi n nay: ........................................... 84 3.2. Các b c xây d ng m t ng d!ng semantic search engine:.................................... 91 3.3.1. Xây d ng ki n trúc Web ng ngh a:................................................................ 92 3.3.2. L p ch& m!c ng ngh a ti m tàng: ................................................................... 93 3.3. Mô hình ngh cho ng d!ng tìm ki m ng ngh a trên l nh v c eDoc................. 96 3.4. Các gi i thu t s% d!ng ........................................................................................... 100 3.4.1. Gi i thu t x% lý tài li u: ................................................................................. 100 3.4.2. Gi i thu t rút trích siêu d li u: ..................................................................... 102 3.4.3. Gi i thu t phân lo i l nh v c cho tài li u:...................................................... 104 3.4.4. Gi i thu t x% lí câu truy v#n: ......................................................................... 104 Ch ng 4 : CH NG TRÌNH NG D NG....................................................................105 4.1. Gi i thi u ch ng trình ng d!ng: ........................................................................ 105 4.2. Ki n trúc c$a ng d!ng:......................................................................................... 105 4.3. Mô t ph m vi ng d!ng........................................................................................ 107 4.3.1. Mô t bài toán: ............................................................................................... 107 0112274 – Ph m Th M Ph ng -4- 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc 4.3.2. Xác nh yêu c u: .......................................................................................... 107 4.4. Xây d ng ng d!ng: .............................................................................................. 108 4.4.1. Thi t k d li u: ............................................................................................. 108 4.4.2. Thi t k x% lý:................................................................................................ 110 4.5. K t qu ch ng trình ............................................................................................. 112 4.6. Th c nghi m ch ng trình .................................................................................... 114 Ch ng 5 : K T LU N ......................................................................................................118 5.1. ánh giá k t qu nghiên c u ................................................................................. 118 5.1.1. 'u i m ......................................................................................................... 118 5.1.2. Khuy t i m:.................................................................................................. 119 5.2. H ng phát tri n .................................................................................................... 119 TÀI LI U THAM KH O...................................................................................................120 I. Lu n v n, lu n án:...................................................................................................... 120 II. Sách, eBooks:............................................................................................................. 120 III. Website: ................................................................................................................. 122 PH L C..............................................................................................................................124 1. Cú pháp RDF: ............................................................................................................ 124 2. RDF Gateway: ........................................................................................................... 129 2.1. Ki n trúc c$a RDF Gateway:............................................................................. 130 2.2. Tính n ng (Features).......................................................................................... 132 3. H th ng nhãn ng ngh a:.......................................................................................... 138 3.1. Nhãn ng ngh a c b n cho danh t : ................................................................. 139 3.2. Nhãn ng ngh a c b n cho ng t :................................................................. 141 3.3. Nhãn ng ngh a c b n cho tính t :................................................................... 142 3.4. H th ng nhãn ng ngh a LDOCE .................................................................... 142 4. H c s tri th c ng ngh a t v ng WordNet .......................................................... 144 4.1. H th ng nhãn ng ngh a c$a danh t : .............................................................. 144 4.2. H th ng nhãn ng ngh a c$a ng t :.............................................................. 149 0112274 – Ph m Th M Ph ng -5- 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc DANH M C CÁC B NG B ng 1 : B ng h ng d n nhanh v cách s d ng m t s search engine ph bi n ......... 28 B ng 2: S l c v các c tr ng c a m t s search engine thông d ng trên Internet .. 32 B ng 3 : Các l p trong RDF ............................................................................................ 54 B ng 4:Các thu c tính c a RDF........................................................................................... 55 B ng 5: Danh sách các ngh!a và ràng bu c c a các t" th#c trong câu............................. 77 B ng 6 Mô t c s$ d% li&u cho 'ng d ng.......................................................................... 110 B ng 7 Các module c a ch ng trình................................................................................ 110 B ng 8 Module eDocSearch ................................................................................................ 111 B ng 9 Module eDocSearch ................................................................................................ 111 B ng 10 Các câu truy v(n th nghi&m............................................................................... 115 B ng 11 Th ng kê l!nh v#c khoa h)c máy tính ................................................................. 116 B ng 12 Th ng kê l!nh v#c ngh& thu*t. ............................................................................. 116 B ng 13: Nhãn ng% ngh!a c b n cho danh t".................................................................. 140 B ng 14: Nhãn ng% ngh!a c b n cho ng t" .................................................................. 142 B ng 15 : Nhãn ng% ngh!a c b n cho tính t"................................................................... 142 B ng 16: H& th ng nhãn ng% ngh!a LDOCE .................................................................... 144 B ng 17:S# phân l p danh t" trong WordNet.................................................................. 148 0112274 – Ph m Th M Ph ng -6- 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc DANH M C CÁC HÌNH Hình 1: Giao di&n c a Google............................................................................................... 18 Hình 2: Giao di&n c a Yahoo................................................................................................ 19 Hình 3: Giao di&n c a Ask Jeeves ........................................................................................ 20 Hình 4: Giao di&n c a AllTheWeb ....................................................................................... 21 Hình 5: Giao di&n c a Teoma ............................................................................................... 22 Hình 6: Giao di&n HotBot ..................................................................................................... 23 Hình 7: Giao di&n c a Altavista............................................................................................ 24 Hình 8: Giao di&n c a Lycos................................................................................................. 25 Hình 9: Ki n trúc t+ng c a Semantic web........................................................................... 36 Hình 10: M t Ontology n gi n......................................................................................... 46 Hình 11: Mô hình d% li&u RDF............................................................................................. 51 Hình 12 : Tiêu chu,n ánh giá tính b o m*t c a eDoc ...................................................... 71 Hình 13 Các quan h& cú pháp và ràng bu c ng% ngh!a ..................................................... 76 Hình 14 Cây quy t -nh trong vi&c ch)n ngh!a phù h p. .................................................. 78 Hình 15: Dòng c s$ tìm ki m Web ................................................................................... 91 Hình 16: Mô hình ngh- cho 'ng d ng tìm ki m ng% ngh!a trên l!nh v#c eDoc .......... 97 Hình 17: Qui trình x lý c a t+ng search engine ................................................................ 99 Hình 18: Gi i thu*t x lý tài li&u: ...................................................................................... 100 Hình 19: Gi i thu*t rút trích siêu d% li&u .......................................................................... 103 Hình 20: S . d% li&u quan h& c a 'ng d ng .................................................................. 108 Hình 21: Giao di&n chính c a 'ng d ng ............................................................................ 112 Hình 22: Giao di&n k t qu tìm ki m c a 'ng d ng......................................................... 113 Hình 23: Giao di&n qu n lí tài nguyên ............................................................................... 113 Hình 24: Ki n trúc c a RDF Gateway............................................................................... 130 Hình 25: Giao di&n c a RQF Query Analyzer. ................................................................. 136 0112274 – Ph m Th M Ph ng -7- 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc DANH M C CÁC T/ VI T T0T eDoc Electronic document eLib Electronic library eLearning Electronic learning www World Wide Web URI Uniform Resource Identifier URL Uniform Resource Locator HTTP Hypertext Transfer Protocol RDF Resources Descriprion Framework OIL Ontology Inference Language OWL Ontology Web Language XML eXtensible Markup Language 0112274 – Ph m Th M Ph ng -8- 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc DANH M C CÁC THU T NG1 Class L p Property Thu c tính Metadata Siêu d li u Subject Ch$ , ch$ ng Title Tiêu Namespace Không gian tên Predicate V ng Triple B ba (subject, predicate, object) 0112274 – Ph m Th M Ph ng -9- 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc M( )U Hi n nay, h u h t các h th ng tìm ki m trên Internet u i theo h ng truy n th ng ó là tìm ki m theo t khoá ( key word ). Theo cách tìm ki m này, khi ta gõ vào t c n tìm, các h th ng tìm ki m s* hi n th các tài li u mà trong nó có ch a t khoá c n tìm. Do ó, k t qu tr ra là m t danh sách r#t nhi u các tài li u, mà có th các tài li u này không liên quan gì n n i dung ta c n tìm. Và ôi khi các h th ng này không a ra h t các tài li u c n thi t, t c là th a tài li u không c n thi t nh ng l i thi u h+n nh ng tài li u quan tr ng khác. V#n "t ra là ta ph i xây d ng m t h th ng tìm ki m nh th nào kh c ph!c hi n tr ng nêu trên ? gi i quy t v#n này, ta c n xây d ng h th ng tìm ki m sao cho áp ng y $ thông tin mà ng i dùng mong mu n, ngh a là ph i xây d ng h th ng tìm ki m theo ng ngh a d a trên thông tin ng i dùng a vào. T nh n th c trên chúng em quy t nh ch n tài: Tìm ki m ng% ngh!a 'ng d ng trên l!nh v#c eDoc (nh ng tài li u i n t% ti ng Anh) v i m!c ích tìm hi u và xây d ng m t công c! tìm ki m theo ng ngh a có th tìm ki m thông tin chính xác và y $, có th h n ch c ph n nào v#n tìm ki m theo t khoá c$a các search engine hi n t i. Các it ng nghiên c u liên quan n tài: eDoc, Semantic Web, RDF, OWL, Metadata,…. Trong ph m vi tài, vì th i gian th c hi n ng n, nên chúng em ch& th% nghi m ch ng trình tìm ki m trong m t s l nh v c: Khoa h c máy tính (Computer Science), Ngh thu t (Art). Hai l nh v c này có v, nh không liên h v i nhau nh ng th c t v n có nh ng tr ng h p c n ph i phân bi t, ví d! nh tài li u v “ngh thu t l p trình” (“Art of programming”) thì ph i phân tài li u v l nh v c khoa h c máy tính ch không ph i ngh thu t …. Tóm l i, ng d!ng mà chúng em xây d ng ch& tìm ki m thông tin trong các l nh v c nêu trên. Tuy nhiên, ng d!ng có th d- dàng m r ng ra nhi u l nh v c còn l i. 0112274 – Ph m Th M Ph ng - 10 - 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc Ch ng 1 : T NG QUAN 1.1. t v(n Nhu c u tìm ki m, n m b t thông tin là m t nhu c u không th thi u trong i s ng c$a m i ng i. Khi vi c s% d!ng World Wide Web ã tr nên ph. bi n r ng kh p, thì công vi c c$a các search engine c/ng tr thành m t ph n s ng còn và có l i ích cho Web. Các công c! tìm ki m tr thành nh ng công c! công c ng cho m i ng i dùng c$a Internet; Google và Yahoo, c/ng tr thành nh ng cái tên quen thu c. Các công c! tìm ki m hi n nay d a trên m t trong hai d ng c$a công ngh tìm ki m Web: tìm ki m do con ng i t ch& ng d n và tìm ki m t ng. Công c! tìm ki m do con ng i ch& ng d n s% d!ng m t c s d li u c$a các t khoá, các khái ni m, và các tham chi u. Nh ng công c! tìm ki m theo t khoá tr v m t dãy các trang, nh ng ph ng pháp n gi n này th ng d n n hàng lo t các k t qu không liên quan và không xác th c. Ho t ng c$a m t công c! tìm ki m d a trên n i dung là: s* ms l ng các t truy v#n ( các t khoá) so v i các t hi n di n trong m i trang c ch a trong ch& m!c c$a nó. Sau ó, công c! tìm ki m này s* s p x p các trang. Ti p c n ph c t p h n b0ng cách a các v trí c$a t khoá vào m t m c quan tr ng c! th . Ví d!, các t khoá xu#t hi n trong th, title c$a trang web thì quan tr ng h n trong ph n body. Các ki u khác c$a công c! tìm ki m do ng i dùng ch& ng d n, nh Yahoo, s% d!ng các l c 1 ch$ giúp ch& h ng tìm ki m và tr v các k t qu có liên quan h n. Nh ng l c 1 ch$ này do con ng i t o ra. B i lí do này, chúng ta ph i t n chi phí t o ra và duy trì trong các t mang “ý ngh a th i gian” (thay .i theo th i gian), và r1i thì không c c p nh t th ng xuyên nh các h th ng t ng. Cách ti p c n tìm theo t khoá v n còn m t s h n ch , i u này ã làm gi m i tính úng n c$a các search engine. Ví d! nh các t 1ng âm khác ngh a (ch+ng h n: bank (ngân hàng), bank (b sông), …) ho"c các t có các bi n th khác nhau do có các ti n t và h u t nh student và students; small, smaller, smallest; …. Ngoài ra, các search engine không tr v các tài li u có các t 1ng ngh a v i các t trong câu 0112274 – Ph m Th M Ph ng - 11 - 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc truy v#n mà ng i dùng nh p vào. Key word không $ bi u di-n chính xác nhu c u c$a ng i dùng c/ng nh n i dung các trang web, h n ch này làm cho các search engine tr v nh ng tài li u không liên quan n v#n mà ng i dùng quan tâm. B i vì t*p h p các t" khóa là d ng bi u di-n s l c nh#t c$a n i dung, và do ó, cách bi u di-n này là m t d ng góc nhìn lu n lý (logical view) c$a n i dung mang m'c thông tin th(p nh(t, ó chính là lý do c b n khi n cho các Search Engine hi n nay có t2 l& s trang web h%u ích trên t ng s trang web tr v th(p. Google v i 400 tri u tài li u thu v m i ngày và trên 8 t& trang web c l p ch& m!c, và là công c! tìm ki m thông d!ng nh#t c s% d!ng ngày nay, nh ng th m chí v i Google v n còn có nhi u v#n . Ví d!, b0ng cách nào b n tìm ki m ch& v i m t l ng ít d li u mà b n c n trong m t bi n k t qu không liên quan c a ra? Khi công ngh trí tu nhân t o (Artificial Intelligence_AI) phát tri n m nh, thì v#n "t ra là làm th nào a ra nh ng ph ng pháp tìm ki m t t h n mà có th th c s tin c y vào nh ng k t qu tìm ki m ó. ó là xu h ng c$a nh ng công c! tìm ki m d a vào ng ngh a và các agent tìm ki m theo ng ngh a. M t công c! tìm ki m ng ngh a tìm ki m các tài li u có ngh a t ng t nhau ch không ch& nh ng t ng t ng t nhau. Web tr thành m t m ng ng ngh a, ph i cung c#p nhi u siêu d li u v n i dung c$a nó, thông qua vi c s% d!ng các th, RDF (Resource Description Framework) và OWL (Ontology Web Language), các th, này s* giúp th c hi n a Web vào trong m ng ng ngh a. Trong m ng ng ngh a, ý ngh a c$a n i dung c th hi n t t h n, và nh ng liên k t logic c th c hi n gi a nh ng thông tin liên quan nhau. Công c! tìm ki m ng ngh a, chúng ta c p ây, có hai u i m l n so v i các công c! tìm ki m truy n th ng: 1. Nó ch#p nh n các truy v#n c phát bi u ngôn ng t nhiên. 2. K t qu là tìm ki m m t m u thông tin; không ph i là m t danh sách các tài li u có th (ho"c không) ch a thông tin yêu c u. Th t v y công c! tìm ki m ng ngh a b t uv il ng thông tin quá t i. Nó ti p nh n m t s các tác v! không c ai a thích trong vi c tìm ki m thông tin hi n 0112274 – Ph m Th M Ph ng - 12 - 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc nay: m ra m i tài li u c$a danh sách k t qu và quét nó m t cách th$ công l#y thông tin. Theo cách ó, các công c! tìm ki m ng ngh a có kh n ng cách m ng hoá, h ng n vi c tìm ki m thông tin i n t% m t cách t ng: nó thay .i mô hình tìm ki m t vi c thu h i tài li u n vi c tr l i câu h i. 1.2. Bài toán gi i quy t Theo th ng kê trong n m 2001: “Các nhân viên t n trung bình 8 gi m t tu n, hay 16% gi công hàng tu n c$a h , tìm ki m và s% d!ng n i dung thông tin bên ngoài. Chi phí l ng ch& riêng cho công ty c$a M là 107 t& ôla m t n m. Vi c tìm ki m ng ngh a là m t c h i y ý ngh a cho các công ty giúp cho nhân viên c$a h có kh n ng h n và hi u qu h n trong vi c "t thông tin bên ngoài vào công vi c c$a h .” Không c n nói nhi u thêm n a. S quá t i thông tin là m t v#n l n trong xã h i thông tin. Nh ng khám phá t ng t c/ng c tìm th#y trong nhi u nghiên c u, làm n.i b t v#n : ph i a ra gi i pháp trong vi c c i ti n x% lí tìm ki m thông tin. Ngo i tr nh ng ích l i to l n mà các công c! tìm ki m mang l i cho chúng ta nh ng n m g n ây b0ng vi c làm cho có th truy c p n hàng tri u các tài li u, b#t ch#p v trí v t lí và ngôn ng , thì chúng v n có m t s h n ch c b n. Ví d!, chúng không “hi u” các t con ng i gõ vào và do ó tt im ts l ng kh.ng l1 c$a các k t qu sai. H n n a, chúng ho t ng hi u qu khi h2i v nh ng s ki n, ch+ng h n nh “Kerry” và “vua c$a Tây Ban Nha”. Tuy nhiên, chúng th c hi n nhi u k t qu không t t n u câu truy v#n nói v s liên h gi a các khái ni m ch+ng h n nh “Nh ng qu c gia nào ã tham gia trong chi n tranh Iraq?” và “t.ng th ng n c Pháp theo chính ng nào?” Có ba v#n c n c c i ti n c i thi n các k t qu c$a công c! tìm ki m là: (i) Công c! tìm ki m c n cho phép nh ng truy v#n ph c t p h n (ví d! trong ngôn ng t nhiên), (ii) Công c! tìm ki m c n “hi u” nh ng gì con ng i h2i, và (iii) Công c! tìm ki m ph i cung c#p câu tr l i cho truy v#n (có th sao l u l i nh ng liên k t n các tài li u mà cho ra câu tr l i). 0112274 – Ph m Th M Ph ng - 13 - 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc 1.3. H ng ti p c*n Có hai ti p c n c i thi n các k t qu tìm ki m thông qua ph ng pháp ng ngh a: 1. Ki n trúc c$a Semantic Web. 2. L p ch& m!c cho ng ngh a ti m tàng (Latent Semantic Indexing). Tuy nhiên, h u h t các công c! tìm ki m d a trên ng ngh a ph i ch u nh ng v#n th c thi b i qui mô c$a m ng ng ngh a r#t l n. Nh0m m!c ích làm cho tìm ki m ng ngh a tr nên hi u qu trong vi c tìm ki m các k t qu mong mu n, m ng này ph i ch a m t l ng l n các thông tin liên quan. Cùng lúc ó, m t m ng r ng l n t o ra nh ng khó kh n trong vi c x% lí nhi u ng d n có th có cho m t gi i pháp liên quan. Chúng ta s% d!ng khía c nh s c bén c$a công ngh Web ng ngh a – k t h p ch"t ch* s ph i h p c$a các công ngh tiên ti n – làm cho mô hình có th chuy n nhanh trong vi c tìm ki m thông tin. • Công ngh& x lí ngôn ng% t# nhiên cho phép ng i dùng h2i nh ng câu h2i mà h mu n, h n là ph i nêu lên nh ng t khoá có liên quan trong câu h2i c$a h . • Các Ontology -nh ngh!a l!nh v#c quan tâm. Chúng c xem nh là “b não” c$a công c! tìm ki m, b i vì nó c g ng hi u nh ng câu truy v#n c$a ng i dùng trong các t c$a ontology này. Theo cách này chú ý r0ng công c! tìm ki m ng ngh a c$a chúng ta không ph i là có m!c ích thông th ng nh Google, mà nó có ý nh áp d!ng iv im t l nh v c hay khu v c c! th (ví d! v l nh v c pháp lí, v n hoá, th thao v.v…). • Phân tích tri th'c. Công ngh này chuy n d li u không có c#u trúc sang thông tin có c#u trúc. Nó rút trích thông tin t các v n b n t do, 0112274 – Ph m Th M Ph ng - 14 - 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc các v n b n bán c#u trúc và c#u trúc phát sinh ra ontology v i tri th c th t s . • Truy c*p tri th'c thông minh. Các câu tr l i cho các truy v#n t c do vi c truy v#n ontology c a ra t ng, và c bi u di-n trong nh ng d ng khác nhau: o “D li u” c$a th c th chính c h2i n (ví d! trong l nh v c xã h i, d li u c$a m t ngh s ). o nh h ng ng ngh a. Nh ng t c$a các câu tr l i ct ng siêu liên k t n các khái ni m ontology con, cho phép nh h ng b0ng “ý ngh a”. o Các th thông minh và liên k t thông minh. Các câu tr l i luôn c sao l u b i các ngu1n và các tài li u chúng d a vào. Khi nh ng tài li u ó c tra c u, thì ph n m m gán th, và liên k t s* t ng nh n ra các t ch a ý ngh a l nh v c và liên k t chúng n ontology, hay thêm vào các th, thông minh v i nh ng ho t ng c nh ngh a trong ontology. o S “t ng t ng” thông minh. Thông th ng, các câu tr l i phát sinh ra nhi u các khái ni m liên quan và các m i quan h . Ph m m m “t ng t ng” thông minh cho phép m t khái ni m i xuyên qua tri th c này. Có m t v#n mà công c! tìm ki m ng ngh a c nh ngh a ây v n ch a th hoàn t#t so v i nh ng công c! tìm ki m v i m!c ích thông th ng (không có ng ngh a) nh Google ó là: ph m vi. Trong Google b n có th tìm ki m v i b#t k3 t khoá nào trong b#t k3 l nh v c nào. N u các t khoá xu#t hi n trong m t s tài li u trên Web, Google s* tìm th#y nó. M t công c! tìm ki m ng ngh a c n m t s tri th c nâng cao: nó c n bi t ý ngh a, c bi u di-n trong m t ontology. Th c t là các ontology – trong tr ng thái thi hành hi n t i – v n còn làm b0ng th$ công, h n ch chúng trong nh ng m!c ích thông th ng. Do ó, các công c! tìm ki m ng ngh a là nh ng công c! quan tr ng cho nh ng l nh v c c! th . Trong tr ng h p này, m!c ích 0112274 – Ph m Th M Ph ng - 15 - 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc c$a các công c! tìm ki m ng ngh a là b. sung cho các công c! tìm ki m thông th ng, h n là c nh tranh nh nh ng i th$ . 0112274 – Ph m Th M Ph ng - 16 - 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc Ch ng 2 : C S LÝ THUY T 2.1. Chi n l c tìm ki m thông tin c a các b tìm ki m (Search Engine) 2.1.1. M t s search engine thông d ng: Sau ây là danh sách m t s search engine. T i sao chúng c xem là nh ng search engine “l n”? ó là b i vì chúng c bi t n nhi u và s% d!ng t t. iv i các chuyên gia web, các công c! tìm ki m l n là danh sách nh ng n i quan tr ng nh#t b i chúng phát sinh ra m t l ng r#t l n các trang web ti m tàng. i v i nh ng ng i tìm ki m, các công c! tìm ki m ph. bi n th ng tr ra các k t qu áng tin c y h n. Nh ng search engine này r#t có th c duy trì t t và nâng c#p khi c n thi t, gi th cân b0ng v i t c phát tri n c$a web. Nh ng search engine sau là t#t c nh ng l a ch n t t nh#t b t u khi tìm ki m thông tin: 0112274 – Ph m Th M Ph ng - 17 - 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc 2.1.1.1. Google: http://www.google.com/ Hình 1: Giao di&n c a Google Nguyên thu4, Google là m t án c$a tr ng i h c Stanford c th c hi n b i hai sinh viên Larry Page và Sergey Brin g i là BackRub. n n m 1998, thì .i tên thành Google, và 1 án này ã tr thành công ty riêng Google "t t i khuôn viên tr ng i h c. Nó v n còn c l u gi cho n ngày nay. Google là công c! tìm ki m n.i ti ng, t t nh#t trong các l a ch n tìm ki m thông tin trên web. D ch v! d a vào crawler, spider cung c#p trang web v i thông tin a ra toàn di n cùng v i m c liên quan t t. ây là công c! t t nh#t hi n nay trong vi c tìm ki m b#t c th gì b n mu n. Tuy nhiên, Google cung c#p ch n l a tìm ki m ch$ y u v các trang web. S% d!ng h p tìm ki m trên trang ch$ Google, b n có th d- dàng nh v các nh qua 0112274 – Ph m Th M Ph ng - 18 - 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc web, nh ng ngh c "t trong các nhóm th o lu n Usenet, nh v thông tin tin t c hay th c hi n tìm ki m s n ph5m. 2.1.1.2. Yahoo: http://www.yahoo.com/ Hình 2: Giao di&n c a Yahoo a ra n m 1994, Yahoo là “th m!c” c/ nh#t c$a web, m t n i mà các nhà biên t p t. ch c các trang web trong các danh m!c. Tuy nhiên, vào tháng 10 n m 2002, Yahoo chuy n sang l p danh sách d a vào crawler cho nh ng k t qu chính c$a nó. Công c! này s% d!ng công ngh t Google cho n tháng 2 n m 2004. Hi n nay, Yahoo s% d!ng công ngh tìm ki m riêng c$a mình. Yahoo Directory v n t1n t i. B n s* ch& ra các liên k t “danh m!c” phía d i m t s các trang web li t kê trong k t qu tr v c$a m t tìm ki m t khoá. Khi c 0112274 – Ph m Th M Ph ng - 19 - 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc xu#t, nh ng trang web này d n b n n m t danh sách các trang web ã c xem xét và phê chu5n b i m t nhà biên t p. Công ngh AltaVista và AllTheWeb c ph i h p v i k thu t Inktomi, m t công c! tìm ki m d a trên crawler, t o nên m t Yahoo crawler hi n nay. 2.1.1.3. Ask Jeeves: http://www.askjeeves.com/ Hình 3: Giao di&n c a Ask Jeeves Ask Jeeves b t u n.i ti ng t n m 1998 và 1999, c bi t nh là m t công c! tìm ki m “ngôn ng t nhiên” cho phép ta tìm ki m b0ng cách h2i nh ng câu h2i và tr v k t qu v i nh ng gì có v là tr l i úng v m i th . Th c s , công ngh không ph i là nh ng gì làm cho Ask Jeeves th c thi t t. Bên c nh các b i c nh, công c! này t i m t th i i m có kho ng 100 trình so n th o 0112274 – Ph m Th M Ph ng - 20 - 0112398 – T Th Ng c Thanh
CÓ THỂ BẠN MUỐN DOWNLOAD
-
LUẬN VĂN:TRÍCH CHỌN THÔNG TIN Y TẾ TIẾNG VIỆT CHO BÀI TOÁN TÌM KIẾM NGỮ NGHĨA
67 p | 122 | 53
-
LUẬN VĂN:NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ
58 p | 161 | 53
-
LUẬN VĂN:MỞ RỘNG BỘ DỮ LIỆU HUẤN LUYỆN CHO QUÁ TRÌNH XỬ LÝ NHẬP NHẰNG NGHĨA CỦA TỪ
51 p | 122 | 34
-
Luận văn thạc sĩ: Tìm hiểu web ngữ nghĩa, xây dựng ứng dụng tìm kiếm tài liệu tiếng Việt
13 p | 216 | 32
-
LUẬN VĂN:PHÂN LỚP CÂU HỎI HƯỚNG TỚI TÌM KIẾM NGỮ NGHĨA TIẾNG VIỆT TRONG LĨNH VỰC Y TẾ
56 p | 112 | 23
-
LUẬN VĂN:XỬ LÝ CÁC CÂU TRUY VẤN VÀ TÌM KIẾM TRÊN KHO TÀI LIỆU CÓ CHÚ THÍCH NGỮ NGHĨA BẰNG TIẾNG ANH
84 p | 133 | 22
-
Tóm tắt luận văn Thạc sĩ Kỹ thuật: Ứng dụng web ngữ nghĩa và khai phá dữ liệu xây dựng hệ thống tra cứu, thống kê các công trình nghiên cứu khoa học
26 p | 160 | 17
-
LUẬN VĂN: VN-KIM SEARCH TIẾNG ANH VỚI TRUY VẤN CÓ LIÊN TỪ LUẬN LÝ, TÍNH TỪ VÀ LƯỢNG TỪ
74 p | 80 | 15
-
Luận văn Thạc sĩ: Kỹ thuật nâng cao hiệu quả tra cứu sách tại Thư viện trường Cao đẳng Kinh tế công nghệ TPHCM
107 p | 69 | 14
-
Tóm tắt luận văn Thạc sĩ Kỹ thuật: Nghiên cứu Web ngữ nghĩa và khai phá dữ liệu web xây dựng hệ thống tra cứu, thống kê các công trình nghiên cứu khoa học
26 p | 100 | 9
-
Luận văn Thạc sĩ Công nghệ thông tin: Xây dựng web ngữ nghĩa cho việc tra cứu thông tin web du lịch đồng bằng sông Cửu Long
115 p | 64 | 8
-
Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu mô hình PCFGs và ngôn ngữ AIML trong xây dựng chatbot hỗ trợ học tiếng Anh
67 p | 54 | 6
-
Luận văn Thạc sĩ Công nghệ thông tin: Xây dựng mô hình các chủ đề và công cụ tìm kiếm ngữ nghĩa
94 p | 35 | 6
-
Luận văn Thạc sĩ Công nghệ thông tin: Rút trích tri thức ngữ nghĩa từ tên thể loại Wikipedia
63 p | 44 | 6
-
Luận văn Thạc sĩ Công nghệ thông tin: Xây dựng hệ thống truy vấn video nông nghiệp hướng ngữ nghĩa có sử dụng Ontology
105 p | 45 | 5
-
Tóm tắt Luận án Tiến sĩ Toán học: Nghiên cứu phương pháp tìm kiếm ngữ nghĩa sử dụng ontology và ứng dụng xây dựng hệ thống tra cứu, tìm kiếm văn bản mẫu bệnh
32 p | 37 | 4
-
Tóm tắt Luận văn Thạc sĩ Kỹ thuật: Xây dựng chức năng tra cứu thông tin văn bản dựa trên web ngữ nghĩa của hệ thống Tic-Office
32 p | 10 | 4
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn