Tìm hiểu ngữ nghĩa trên lính vực eDoc (Phan Thị Mỹ Phượng vs Từ Thị Ngọc Thanh) - 3
lượt xem 8
download
Sau khi hệ thống đã có được ánh xạ này, mỗi công ty upload các tập tin hình ảnh của các mặt hàng cũng như upload tập tin XML đã được tạo (bằng cách được mô tả ở phần trên) và yêu cầu hệ thống lưu lại. Khi đó, hệ thống duyệt toàn bộ tập tin XML. Ứng với mỗi node, hệ thống xác định tên thuộc tính từ phía công ty là tên của node, tìm kiếm tên thuộc tính tương ứng trong hệ thống. ...
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Tìm hiểu ngữ nghĩa trên lính vực eDoc (Phan Thị Mỹ Phượng vs Từ Thị Ngọc Thanh) - 3
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc Trên cây cú pháp này, ta xác nh c các quan h cú pháp nh : S – V (ch$ ng – ng t ), V – O ( ng t – i t ), A – N ( tính t – danh t ), D – N ( nh t – danh t ). M i t th c (content words) trong câu trên, cho dù ã xác nh c t lo i chính xác, nh ng u v n gây nh p nh0ng v ng ngh a. Ví d!, ng t “enter” ( i vào / nh p), danh t “bank” (ngân hàng/ b sông/ dãy), tính t “old” (già/ c/ ). Vì v y, chúng ta ph i s% d!ng n nh ng ràng bu c ng ngh a nh sau: T Ràng bu c / Ràng bu c nhãn ng ngh a I (tôi) Type: Person (Ng i) Enter1 S:Human O:Closed – SPA ( i vào) (ng i) (không kín) Enter2 S:Human O: Data (d li u) (nh p) (ng i) Bank1 Type: Hou (nhà c%a, không gian kín) (ngân hàng) Bank2 Type: Nat (b sông) (công trình thiên nhiên, không gian h ) Old1 N: Ani (già) (có s s ng) Old2 (c/) B ng 5: Danh sách các ngh a và ràng bu c c$a các t th c trong câu. 0112274 – Ph m Th M Ph ng - 77 - 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc Hình 14 Cây quy t -nh trong vi&c ch)n ngh!a phù h p. Qua vi c duy t cây t trên xu ng v i g c là ng t (Enter), cu i cùng ta ch n c các ngh a phù h p: enter1 ( i vào), bank1 ( ngân hàng), và old2 (c/). Trong vi c xét i u ki n ràng bu c v ng ngh a, chúng ta ph i xét n tính c#p b c (hierachical) trong h th ng nhãn ng ngh a (ontology) mà trong ó khái ni m con s* k th a các nét ngh a c$a khái ni m cha và có thêm nét ngh a m i riêng c$a chúng. Thông tin v "c i m ng ngh a (type) c$a t ng m!c t th c c/ng nh các ràng bu c ã c xác nh trong t i n LDOCE và FrameNet. 2.4.2.3.3. Tri th c v ngôn t ( Collocation) Ràng bu c v ng ngh a gi a các thành ph n cú pháp không ph i lúc nào c/ng gi i quy t c m i nh p nh0ng, vì có nh ng quan h ti m 5n v logic, v ng ngh a ho"c th m chí do thói quen mà vi c nh n bi t ph i òi h2i nh ng tri th c th gi i th c mà n nay ng i ta c/ng ch a th tích h p h t vào t i n hay các c s tri th c khác trong máy tính. 0112274 – Ph m Th M Ph ng - 78 - 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc Ví d!, danh t “bank” trong câu “I go to the bank…” có ngh a gì? Ta s* ch n ngh a nào trong s các ngh a: “ngân hàng/ b (sông) / dãy”; danh t “way” là “ ng ( i) / cách (th c)”?; danh t “letter” là “b c th / ch cái”?;…. N u ta ch& xét các ràng bu c v ng ngh a ( không ph i lúc nào các ràng bu c này c/ng có m"t y $ ) thì ta khó mà có th xác nh c chính xác ngh a c$a các t nh p nh0ng ó. Vì v y, kh% nh p nh0ng trong nh ng tr ng h p này, ng i ta th ng xét n hình thái và ng ngh a c$a các t lân c n hay còn g i là ngôn t (collocation). Ch+ng h n khi th#y “bank … river” → “b sông”, “bank … account/money” → “ngân hàng”; “way to” → “ ng ( i)”, “way of” → “cách th c”; “write … letter … to” → “b c th ”, “… letter A” → “ch cái”, “… letters, digits, symbols …” → “ch cái”, “write … papers, letters, messages,…” → “b c th ”;…. Ph m vi lân c n c$a t c n kh% ng ngh a có th là bên trái 1, 2 hay n t và bên ph i 1, 2 hay n t . Vi c ch n l a lân c n này ph! thu c vào t ng tr ng h p và cá nhân c! th . 2.4.2.3.4. Tri th c v ch (subject) Trong m t s tr ng h p nh p nh0ng, chúng ta có th xác nh c ngh a úng c$a t n u ta bi t c ch$ c$a v n b n. Ch+ng h n t “bank”, n u ang nói v v#n “tài chính” thì nó th ng có ngh a là “ngân hàng”; t “driver” → “trình i u khi n” ( n u ch$ là l nh v c “tin h c”); “sentence” → “câu” (n u ch$ là “ngôn ng / v n ph m”) ho"c “b n án” ( n u ang nói v “pháp lu t”); “element” → “nguyên t ” ( trong “hoá”) / “ph n t%” (trong “toán / tin h c”);…. 6 xác -nh c ch c a v8n b n ang c n d ch, ta c+n xem xét s# xu(t hi&n c a m t s t" chuyên môn trong l!nh v#c ó. Ch+ng h n, n u trong v n b n ta th#y xu#t hi n các t nh : “ellipsis” (t&nh l c), “bilingual” (song ng ), “anaphora” (th i t ), “pharse” (ng ), … thì ta có th oán nh n v n b n này ang nói v ch$ “ngôn ng h c”; t ng t cho các t “computer”, “memory”, “peripherals”, “CPU”,… → ang nói v “tin h c”, …. 0112274 – Ph m Th M Ph ng - 79 - 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc Chính vì v y, trong t i n LDOCE/ LLOCE u có mã s ch$ cho các t chuyên môn này. Chúng ta có th xác nh c ch$ m t cách t ng b0ng cách xem xét các t chuyên môn lân c n t ang c n kh% nh p nh0ng. 2.4.2.3.5. Tri th c v t n su t ngh a c a t M t t không ph i lúc nào c/ng thu c v m t ch$ nh#t nh ( trong t in LDOCE, h n 56% t thu c d ng này), vì v y tính thông d!ng c$a m t ngh a nào ó còn c d a trên o v t n su#t (frequency) xu#t hi n c$a t ó i v i ngh a c! th ó. Ví d!, danh t “pen”có ngh a thông d!ng nh#t là “bút/ vi t” (bên c nh các ngh a ít thông d!ng h n, nh : “chu1ng”, “l1ng chim”); “ball” th ng có ngh a là “qu banh/ hòn bi” h n là “bu.i khiêu v/”,… o t n su#t xu#t hi n c$a m i ngh a c$a m i t c th ng kê trên nh ng ng li u r#t l n thu c nhi u lo i v n b n khác nhau. Chính vì v y, trong WordNet và trong LDOCE, các ngh a c s p x p theo th t gi m d n (ngh a thông d!ng nh#t s* c li t kê u tiên). 2.4.2.3.6. Tri th c trong nh ngh a c a ngh a t (definition): Trong các t i n LDOCE/ WordNet, m i ngh a s* c nh ngh a và có ví d! kèm theo. Ví d!, t “bank” trong LDOCE s* có các ngh a kèm nh ngh a c$a nó nh : - “land along the side of a river, lake, etc.” ( #t d c bên sông / h1 ) - “a place where money is kept and paid ….” (n i gi ti n và tr ti n …) - “a row, a line of …” (m t hàng, m t dãy …) D a trên thông tin trong các nh ngh a này, và so sánh v i thông tin c$a ng c nh, ta có th xác nh c ngh a phù h p c$a t trong ng c nh ó. th c hi n i u này, Wilks et.al. ã tính toán ph n giao (overlap) c$a t#t c các t. h p ngh a c$a các t th c trong câu ti ng Anh dùng nh ngh a m i ngh a c$a t . 0112274 – Ph m Th M Ph ng - 80 - 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc Gán nhãn ng% ngh!a 2.4.2.4. Kh% nh p nh0ng ngh a c$a t là bài toán "c tr ng trong gán nhãn ng ngh a. T c là ngh a c$a t a ngh a s* c xác nh ngay n u bi t nhãn ng ngh a c$a nó, ví d!: danh t “bank” s* có ngh a là “ngân hàng” n u c gán nhãn là “HOU”, và có ngh a “b (sông)” n u gán nhãn “NAT”, …. Trong các mô hình gán nhãn ng ngh a theo cách ti p c n d a trên các ngu1n tri th c nói trên, ng i ta th ng s% d!ng b nhãn có m n (granularity) khác nhau. B nhãn càng m n ( chi ti t hàng tr m ngàn nhãn nh WordNet) thì chính xác c$a vi c gán nhãn s* th#p h n nh ng kh n ng kh% nh p nh0ng ngh a c$a nó s* cao h n ( vì không có tr ng h p nào cùng nhãn mà khác ngh a). Ng c l i, n u ch n b nhãn càng thô ( ch& có 36 nhãn nh LLOCE), thì chính xác trong gán nhãn s* cao h n và t#t nhiên kh n ng kh% nh p nh0ng ngh a s* th#p h n ( s* có nhi u tr ng h p cùng nhãn nh ng khác ngh a). Ngoài ra, vi c gán nhãn ng ngh a còn c phân bi t theo quy mô gán nhãn: ho"c là gán cho m t s ít các t i n hình ( nh Hwee Ng và Hian Lee cho m t t interest, David Yarowsky cho 12 t ,…) ho"c là gán cho h u h t các t th c (nh Mark Stevenson và Yorick Wilks, Mona Diab và Philip Resnik). Vi c ch n ngu1n tri th c nào cho m i tình hu ng c h th ng quy t nh b0ng ph ng pháp h c giám sát trên ng li u ã c gán nhãn ng ngh a chính xác ( ây chính là ng li u hu#n luy n hay còn g i là ng li u vàng). Gi i thu t h c có th là m ng Neural, cây quy t nh, MBL, TBL,… mà trong ó các gi i thu t h c d a trên ký hi u (symbolic) t2 ra chính xác h n. 2.4.2.5. Các m'c nh*p nh9ng trong x lý ng% ngh!a: 2.4.2.5.1. Nh p nh ng m c t v ng: Nh câu ví d! “I enter the bank” trên, sau khi phân tích cú pháp, máy tính ã xác nh c m i quan h gi a ng t “enter” ( i vào) và i t c$a nó là “bank” (là ngân hàng hay b sông?) thì ph i c n phân tích ng ngh a c$a ng t “enter” và danh t “bank”. Trong tr ng h p này máy s* v n d!ng các ý ni m c$a ngôn ng h c tri 0112274 – Ph m Th M Ph ng - 81 - 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc nh n bi t r0ng “enter” là hành ng “ i vào không gian kín (close space)” và danh t “bank” v i ngh a là “b sông” có thu c tính là “không gian h ” thì s* không tho thu c tính này, ch& có “bank” v i ngh a “ngân hàng” là s* tho i u ki n “không gian kín” này, nên cu i cùng máy tính s* ch n ngh a “ngân hàng”. 2.4.2.5.2. Nh p nh ng m c c u trúc: Ví d! xét ng “Old man and woman”, ta có 2 phân tích: “[Old man] and [woman]” và “Old [man and woman]” và máy tính s* ch n cách phân tích th nhì (do tính cân b0ng v n có trong c#u trúc song song c$a liên t “and”). Tuy nhiên, n u xét “Old man and child”, ta c/ng s* có 2 phân tích: “[Old man] and [child]” và “Old [man and child]” và máy tính s* ch n cách phân tích th nh#t, vì máy th#y c#u trúc th nhì là vô lý (do có s i l p gi a thu c tính “tr,” trong “child” và già trong “man”). 2.4.2.5.3. Nh p nh ng m c liên câu: Ví d! xét câu “The monkey ate the banana because it was hungry” (con kh& n chu i vì nó ói). Trong m t s tr ng h p, máy tính hi n nay có th xác nh c i t “it” (nó) thay th cho t nào: “monkey” (kh&) hay “banana” (chu i). gi i quy t c nh p nh0ng này, máy tính ph i xem l i m nh tr c và v n d!ng tri th c v th gi i th c có trong WordNet bi t r0ng “ch& có kh& m i có kh n ng ói” nên s* ch n “it thay th cho monkey”. Còn trong câu: “The monkey ate the banana because it was n chu i vì nó chín), thì máy tính s* bi t r0ng “ch& có chu i m i có kh ripe” (con kh n ng chín), nên s* ch n “it thay th cho banana”. 2.4.3. Phân lo4i v8n b n (Text Classification) Trong th i i ngày này, th i i c$a thông tin, l ng v n b n ngày càng l n và ta c n phân lo i các v n b n thành các nhóm ch$ khác nhau, nh : theo chuyên ngành (Toán, Lý, Hoá, V n, S%, …), theo l nh v c (Khoa h c, V n hoá, Xã h i, Chính tr , …), …. Do kh i l ng quá l n, ta không th phân lo i th$ công b0ng tay c. Vì v y , m t ch ng trình máy tính phân lo i t ng c yêu c u. xây d ng ch ng trình này, ng i ta ã dùng nhi u cách ti p c n khác nhau, nh : d a trên t khoá, d a 0112274 – Ph m Th M Ph ng - 82 - 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc trên tr ng ng ngh a c$a các t có t n s xu#t hi n cao, mô hình Maximum Entropy, d a trên lý thuy t t p thô, … i v i ti ng Anh, các k t qu trong l nh v c này r#t kh quan. Còn iv i ti ng Vi t, g n ây ã có m t s công trình nghiên c u v v#n này và ã có m t s k t qu ban u nh ng còn h n ch do ph n phân tích hình thái (tách t ) và t i ný ni m (phân lo i ng ngh a) cho ti ng Vi t ch a hoàn thi n. Bên c nh vi c phân lo i v n b n, ng i ta c/ng quan tâm n các ng d!ng gom c!m v n b n nh0m nhóm các v n b n có n i dung t ng t nhau (theo các thông s c$a v n b n) l i v i nhau. 0112274 – Ph m Th M Ph ng - 83 - 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc Ch ng 3 : MÔ HÌNH VÀ GI I THU T 3.1. Công ngh& tìm ki m ng% ngh!a trên th gi i hi&n nay: H u h t các hi u qu g n ây c$a các công c! tìm ki m d a vào ng ngh a là ph! thu c cao vào công ngh x% lí ngôn ng t nhiên phân tích và hi u câu truy v#n. M t trong nh ng công c! tìm ki m u tiên và thông d!ng nh#t này là Ask Jeeves (http://www.askjeeves.com/). Nó liên k t nh ng i m m nh c$a ph n m m phân tích ngôn ng t nhiên, x% lí khai khoáng d li u, và t o c s tri th c v i nh ng phân tích theo kinh nghi m. Ng i dùng có th gõ các truy v#n b0ng ngôn ng t nhiên và nh n c nh ng tr l i tho áng. M t ví d! d a trên ng ngh a khác là Albert ( http://www.albert.com/). 'u i m l n nh#t c$a nó là cung c#p nhi u ngôn ng thêm vào cho ti ng Anh, ví d! nh ti ng Pháp, Tây Ban Nha, c. Lo i này c$a search engine c n m t s ông ng i xây d ng nên m t m ng ng ngh a r#t l n nh0m m!c ích h ng t i vi c th c thi h p lí. M t ki u nâng cao khác c$a công c! tìm ki m Internet là Cycorp (http://www.cyc.com/). Cyc liên k t c s tri th c l n nh#t trên th gi i v i Internet. Cyc (en-cyc-lopedia) là m t c s tri th c bao la và a ng c nh. V i Cyc Knowledge Server, nó cho phép các site Internet thêm vào tri th c ng ngh a thông d!ng và phân bi t nh ng ngh a khác nhau c$a các khái ni m nh p nh0ng. 3.1.1. Các hi&u qu tìm ki m ng% ngh!a hi&n nay Khi công ngh Web trí tu nhân t o tr nên nâng cao h n, s% d!ng các th, RDF và OWL s* a ra nh ng c h i ng ngh a cho tìm ki m. Tuy nhiên, kích th c c$a m ng ang c tìm ki m s* ph i thi t l p m t kho ng tr ng cho gi i pháp ph c t p và do ó nh h ng m nh n kh n ng xu#t hi n c$a các k t qu thành công. Nhi u công ty l n ang th t s h ng n v#n c$a tìm ki m ng ngh a. S phát tri n c$a Microsoft v Web có l* ph! thu c vào kh n ng c$a nó hoàn thi n công c! tìm ki m mà d n u là Google. K t qu là Microsoft ã a ra m t ch ng 0112274 – Ph m Th M Ph ng - 84 - 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc trình tìm ki m m i g i là MSNBot, nó l t qua Web xây d ng m t ch& m!c c$a các liên k t HTML và các tài li u. MSNBot cd nh nh là m t công ngh mà k t h p các ng d!ng cho h i u hành Windows. Sau ó Microsoft s* k t n i công c! tìm ki m c$a nó v i c.ng MSN trong phiên b n Windows k ti p c$a nó nh0m làm cho d- dàng tìm ki m e-mail, spreadsheets và các tài li u trên các PC (Personal Computer), các m ng h p nh#t, c/ng nh Web. 3.1.2. Công ngh& tìm ki m Tìm ki m ng ngh a gi i quy t v i các khái ni m và các m i quan h logic. N u xem xét các v#n th c t c$a tìm ki m ng ngh a, chúng ta s* th#y r0ng cây tìm ki m ng tr c tình tr ng thi u logic a n v#n ch a hoàn t#t (Incompleteness Problem) hay v#n “ng c ng ” (Halting Problem). u tiên hãy xem xét v(n ch a hoàn t(t. K t lu n có th c xem nh là m t s suy di-n c$a m t dãy logic g n l i v i nhau. ( m i i m, có th có nhi u h ng khác nhau t i m t suy di-n m i. Vì v y, nh0m t hi u qu , có m t nhóm các kh n ng phân nhánh b0ng cách nào ó h ng n m t gi i pháp úng. Và nhóm các phân nhánh ó có th tr i ra trong các h ng m i l . Ví d!, b n có th mu n c g ng nh ngh a “ai là ng i mà Kevin Bacon bi t” d a trên thông tin v m i quan h gia ình c$a anh ta, nh ng phim c$a anh ta, hay nh ng ti p xúc công vi c c$a anh ta. Do ó, có nhi u h n m t h ng a nm t s các k t qu . Các k t qu này n0m trong m t nhóm phân nhánh các kh n ng có th có. Do v y, k t lu n trong h th ng c$a chúng ta là m t lo i c$a v#n tìm ki m, c bi u th nh là m t cây tìm ki m. Có th b t u &nh c$a cây, g c, hay t các nhánh. &nh c$a cây có th là câu truy v#n c h2i. M i b c l n xu ng các nút con trong cây này có th c xem nh m t suy di-n logic ti m tàng di chuy n h ng n vi c c g ng xác nh n câu truy v#n nguyên th$y mà s% d!ng b c suy di-n logic này. H ng r* qu t c$a các kh n ng có th c xem nh cây phân nhánh này, tr nên r m r p h n và sâu h n. M i ti p c n này k t thúc b0ng vi c tr thành m t trong các b c con, n m t nút con. 0112274 – Ph m Th M Ph ng - 85 - 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc T ng t ng r0ng m i nút trong cây này bi u th m t vài h ng xác nh n. M i liên k t t m t nút cha cao h n n m t nút con bi u th m t câu l nh logic. Bây gi v#n này là chúng ta có m t cây l n c$a các kh n ng. Trong m t h th ng logic ph c t p, có m t s l ng l n các ch ng c ti m tàng. M t s chúng dài và không rõ ràng n u ch& có m t ch ng c . c ch ng minh vào nh ng n m 1930, m t s h th ng logic $ ph c t p v n ã là không y$ (không th quy t nh). Nói cách khác, có các câu l nh mà không th c ch ng minh m t cách logic. Lu n c c$a nó cho i u ó liên quan n m t v#n khác, v#n “ng c ng ” (Halting Problem). V(n halting suy ra r0ng các thu t gi i hi n nay s* không bao gi k t thúc trong m t câu tr l i. Khi nói v Web, chúng ta nói v hàng tri u các s ki n và hàng ch!c ngàn lu t mà có th n i k t an l i v i nhau trong nh ng h ng ph c t p, vì th không gian c$a các ch ng c ti m tàng là vô t n và cây này theo logic s* tr nên vô t n. Theo ó, chúng ta s* i vào các v#n không hoàn t#t v n có; ví d! nh chúng ta không th th#y m i ch ng c có th có và thu t#t c các câu tr l i. Chúng ta s* i vào tình tr ng không hoàn t#t b i vì cây tìm ki m quá l n. Vì th h ng ti p c n c$a chúng tôi là ch& ph i tìm ki m trên các ph n c$a cây. Có m t chi n l c n.i ti ng cho vi c b0ng cách nào ch& ra các v#n tìm ki m nh v y. M t chi n l c là tìm ki m cây theo “chi u sâu” (depth-first). Tìm ki m chi u sâu s* b t u &nh cây và i xu ng sâu n m c có th m t s ng d n nào ó, m r ng các nút khi chúng ta i, cho n khi tìm th#y m t k t thúc ch t (dead end). M t k t thúc có th là m t ích (thành công) hay m t nút mà chúng ta không th t o ra các con m i. Vì v y h th ng không th ch ng minh b#t c th gì ngoài i m này. Hãy xem qua tìm ki m theo chi u sâu và xoay theo tr!c c$a cây. Chúng ta b t u nút &nh và i sâu nh#t có th : 1) B t u nút cao nh#t. 2) i xu ng sâu nh#t có th theo m t h ng. 0112274 – Ph m Th M Ph ng - 86 - 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc 3) Khi chúng ta i vào m t k t thúc, sao l u nút cu i cùng mà t ó chúng ta r i kh2i. N u có m t ng d n mà chúng ta ch a i, thì hãy l n theo nó. C theo ch n l a này cho n khi chúng ta th#y m t k t thúc hay m t ích n. 4) ng d n này d n n m t k t thúc khác, vì th i tr l i m t nút và c g ng nhánh khác. 5) ng d n a n m t i m ích. Nói cách khác, nút cu i cùng này là m t k t qu kh quan cho truy v#n. Vì th chúng ta có m t câu tr l i. Hãy tìm ki m nh ng áp án khác b0ng cách i lên m t vài node và sau ó i xu ng m t ng d n mà chúng ta ch a i th%. 6) Ti p t!c cho n khi th#y nhi u h n nh ng i m k t thúc và s% d!ng h t nh ng kh n ng tìm ki m. 'u i m c$a tìm ki m theo chi u sâu là: ây là m t cách hi u qu theo thu t toán tìm ki m các cây trong m t nh d ng. Nó gi i h n s l ng không gian mà ta có duy trì vi c nh nh ng th mà ta ch a nhìn th#y. T#t c nh ng th mà chúng ta ph i nh là l u l i ng d n. Khuy t i m c$a tìm ki m này là m t khi chúng ta b t u i xu ng m t h ng, chúng ta s* i n t#t các các con ng cho n cu i cùng. M t chi n l c khác cho tìm ki m là tìm ki m theo chi u ngang tr c. ( ây chúng ta tìm ki m t l p này sang l p khác. u tiên chúng ta c g ng th c hi n t#t c các ki m ch ng b c 0 và sau ó chúng ta c g ng th c hi n t#t c các ki m ch ng b c 1, v.v… 'u i m c$a tìm ki m theo chi u ngang là chúng ta cbo m nh n các ki m ch ng n gi n nh#t tr c khi chúng ta n nh ng cái ph c t p h n. i u này c a ra do nh ng l i ích c$a Ockham’s Razor. N u có m t ki m ch ng b c th n, chúng ta s* tìm th#y nó tr c khi chúng ta xem xét nb c th n+1. Khuy t i m c$a tìm ki m theo chi u ngang là chúng ta có nh ng cây r#t sâu, chúng ra c/ng có nh ng cây r#t r m r p mà chúng ta có hàng ngàn hay hàng ch!c ngàn các nút con. Khuy t i m khác c$a tìm ki m này là s l ng không gian chúng ta ph i s% 0112274 – Ph m Th M Ph ng - 87 - 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc d!ng l u t#t c các k t qu m c th 3 tr c khi chúng ta kh o sát nó. V i tìm ki m theo chi u r ng, chúng ta càng i vào cây càng sâu thì không gian yêu c u càng l n. Vì th chúng ta nh n ra r0ng hai trong các thu t gi i c. i n cho tìm ki m, theo chi u d c và chi u ngang, s* d n n nh ng v#n v các h th ng l n. Có hai l p c b n c$a các gi i thu t tìm ki m c s% d!ng c g ng gi i quy t các gi i h n v v#n không hoàn t#t và tình tr ng ng c ng là: không có $ thông tin và có $ thông tin. Các tìm ki m không +y thông tin, hay không nhìn th#y, thì không có thông tin v s l ng các b c hay chi phí ng d n t tr ng thái hi n t i n ích. Nh ng tìm ki m ki u này bao g1m: tìm theo chi u sâu (depth-first), theo chi u r ng (breadth-first), chi phí không .i (uniform-cost), gi i h n chi u sâu (depth-limiting) và tìm ki m sâu thêm l"p i l"p l i (iterative deepening). Các tìm ki m +y thông tin, hay heuristic, có y $ thông tin v ích n; thông tin này th ng là chi phí ng d n cl ng cho nó hay là c oán s l ng các b c xu#t phát t nó. Thông tin này c bi t nh là heuristic search agent. Nó cho phép các tìm ki m có y $ thông tin th c hi n t t h n nh ng tìm ki m không $ thông tin và làm cho chúng hành x% trong m t dáng v, hoàn toàn “lí trí”. Nh ng tìm ki m này bao g1m: các tìm ki m best-first, hill-climbing, beam, A*, và IDA* (iterative deepening A*). 3.1.3. Các Web search agent Trong khi các công c! tìm ki m là m nh và quan tr ng cho t ng lai c$a Web, thì có m t hình th c ho t ng khác c$a tìm ki m c/ng óng vai trò quy t nh: các tr m tìm ki m Web (Web search agent). M t Web search agent s* không th c hi n nh m t công c! tìm ki m th ng m i. Các công c! tìm ki m này s% d!ng c s d li u tra c u t m t c s tri th c (Knowledge Base). Trong tr ng h p c$a Web search agent, t các trang Web c tìm ki m và máy tính cung c#p m t giao di n cho ng i dùng. Các k t qu tri giác c$a agent là các tài li u c k t n i thông qua Internet s% d!ng HTTP. Các ho t ng c$a agent c nh ngh a n u tìm th#y ích n c$a vi c tìm m t trang Web ch a m t i m ích 0112274 – Ph m Th M Ph ng - 88 - 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc c ch& rõ (ví d! nh t khoá hay c!m t ) và n u không , thì tìm m t v trí khác vi ng th m. Nó ho t ng trong môi tr ng s% d!ng các ph ng pháp u ra cp nh t ng i dùng tr ng thái c$a tìm ki m hay các k t qu k t thúc. Cái gì làm cho “trí tu ” c$a agent có kh n ng ra quy t nh có lí trí khi a ra m t ch n l a. Nói cách khác, a ra m t ích n, chúng s* ra quy t nh i theo nh ng hành ng mà d n n ích trong m t cách úng lúc. M t agent th ng có th phát sinh ra t#t c các k t qu có th có c$a m t s ki n, nh ng sau ó nó s* c n tìm ki m thông qua nh ng k t qu ó tìm ki m m t ích n mong mu n và th c thi ng d n (chu i các b c) b t u tr ng thái ban u hay tr ng thái hi n t i, n tr ng thái c$a ích n mong mu n. Trong tr ng h p c$a Web search agent thông minh, nó s* c n s% d!ng m t tìm ki m nh h ng thông qua Web t i ích c$a nó. Vi c xây d ng m t Web search agent thông minh c n nh ng k thu t cho tìm ki m nhi u và k t h p t khoá, ng n ch n “handling” và kh n ng t n y m m khi nó s% d!ng h t hoàn toàn m t không gian tìm ki m. a ra m t i m ích, Web search agent x% lí tìm ki m thông qua m t s ng d n c n thi t. Agent này s* d a vào t khoá. Ph ng pháp c $ng h này là bt u t m t v trí “h t gi ng” (do ng i dùng cung c#p) và tìm t#t c nh ng v trí khác c liên k t trong m t d ng cây n g c (v trí h t gi ng) ch a i m ích. Search agent c n bi t i m ích (ví d! t khoá hay c!m t ), n i mà b t u, l"p l i bao nhiêu l n i m ích nh n th#y s* xem bao lâu (ràng bu c th i gian), và ph ng pháp gì nên c nh ngh a tiêu chu5n cho vi c ch n ng d n (các ph ng pháp tìm ki m). Nh ng v#n này c a ra trong ph n m m. Vi c th c thi c n m t s tri th c c$a l p trình, làm vi c v i sockets, HTTP, HTML, s p x p, và tìm ki m. Có nhi u ngôn ng trong nh ng thi hành trên Web, nh ng giao di n l p trình ng d!ng (APIs) nâng cao, và kh n ng phân tách v n b n t t h n mà có th s% d!ng vi t m t Web agent. 0112274 – Ph m Th M Ph ng - 89 - 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc S% d!ng thu t gi i s p x p nâng cao và hi u qu s* giúp c i thi n th c thi c$a Web search agent. Thi t k Web search agent g1m b n giai o n: kh i t o, nh n th c, hành ng và hi u qu . Trong giai o4n kh$i t4o, Web search agent nên t o l p t#t c các bi n, c#u trúc và m ng. C/ng nên l#y thông tin c s c n cho vi c ch& o s n tìm i m ng pháp tìm ki m. Giai o4n nh*n th'c, ích, ích n, m t v trí b t u và ph c t p trung s% d!ng tri th c c cung c#p ti p xúc v i m t trang và thu h1i thông tin t v trí ó. Nó nên c nh n di n n u hi n di n i m ích và nên nh n ra n nh ng v trí URL khác. Giai o4n hành ng l#y t#t c nh ng các ng d n thông tin mà h th ng bi t và nh ngh a n u ích n c tìm th#y ( i m ích c tìm th#y và vi c s n tìm k t thúc). N u vi c s n tìm v n còn ho t ng nó ph i ra quy t nh i n n i nào ti p theo. ây là s thông minh c$a agent, và ph ng pháp c$a tìm ki m cho bi t Web agent s* “thông minh” bao nhiêu. N u m t liên k t không tìm th#y, vi c s n tìm k t thúc, và nó cung c#p u ra cho user. Web search agent di chuy n t giai o n kh i t o n m t vòng l"p bao g1m các giai o n nh n th c, ho t ng và hi u qu cho n khi t c ích n hay không. 0112274 – Ph m Th M Ph ng - 90 - 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc Hình 15: Dòng c s$ tìm ki m Web 3.2. Các b c xây d#ng m t 'ng d ng semantic search engine: M t ví d! c$a công ngh tìm ki m ng ngh a là TAP. TAP là m t án phân tán g1m nh ng nhà nghiên c u t Standford, IBM, và W3C. TAP t o òn b5y cho công ngh t ng và bán t ng rút ra nh ng c s tri th c t ph n thân không có 0112274 – Ph m Th M Ph ng - 91 - 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc c#u trúc hay bán c#u trúc c$a v n b n. H th ng này có th s% d!ng thông tin v a h c h c thêm thông tin m i, và có th s% d!ng thu h1i thông tin. Trong TAP, các tài li u s6n có c phân tích s% d!ng công ngh ng ngh a và chuy n sang thành các tài li u Web ng ngh a s% d!ng công ngh t ng hay th$ công v i các gói tri th c có c#u trúc ngày càng sâu h n. Công ngh thu h1i thông tin truy n th ng c nâng cao v i tri th c có c#u trúc sâu cung c#p các k t qu chính xác h n. C hai phép phân tích t ng và ch ng d n s% d!ng các h th ng và các agent l p lu n thông minh. Các gi i pháp xây d ng nên m t công ngh trung tâm c g i là các Semantic Web Template. Th c hi n bi u di-n tri th c, s sáng t o, s tiêu th! và duy trì c$a tri th c tr nên trong su t i v i ng i dùng. Mô hình d li u RDF là c s c$a công ngh bi u di-n tri th c Web ng ngh a và TAP s% d!ng RDF Schema và OWL. Khó kh n c$a vi c t t o ra tri th c yêu c u m t máy tri th c có th dùng d ch các tài li u sang nh ng ngôn ng t ng tr ng và logic c yêu c u. Các ontology s% d!ng v n t v ng chính c$a tri th c c yêu c u nh ngh a các khái ni m và m i quan h mà các tr ng h p c$a khái ni m ó n m gi . 3.3.1. Xây d#ng ki n trúc Web ng% ngh!a: Ki n trúc Web ng ngh a c phát tri n d a trên ý t ng c$a vi c chú thích các trang Web b0ng các th, RDF và OWL bi u di-n chi ti t các ontology ng ngh a. Tuy nhiên, gi i h n c$a các h th ng này là chúng ch& x% lí các trang Web ã c chú thích b0ng nh ng th, ng ngh a c! th . Ontology mô t các khái ni m và m i quan h v i m t t p t v ng tiêu bi u. M!c ích c$a vi c xây d ng ontology là chia s, và s% d!ng l i tri th c. T khi Web ng ngh a là m t m ng phân tán, có nh ng ontology khác nhau mô t nh ng i u t ng ng m t cách ng ngh a. K t qu là, c n thi t lps 1 các y u t c$a nh ng ontology này n u chúng ta mu n x% lí thông tin trên qui mô c$a Web. M t ti p c n cho tìm ki m ng ngh a có th d a trên vi c phân lo i v n b n cho nh ng ánh x ontology so sánh m i y u t c$a m t ontology này v i m i y u t c$a ontology khác, 0112274 – Ph m Th M Ph ng - 92 - 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc và sau ó nh ngh a quan h t ng ng trên m i m t c"p c s . Nh ng item c liên k t có giá tr t ng ng c$a nó l n h n m t ng ng nào ó. 3.3.2. L*p ch3 m c ng% ngh!a ti m tàng: Bây gi chúng ta cp n vi c th c thi Latent Semantic Indexing (LSI – l p ch& m!c ng ngh a ti m tàng) có th c i ti n nh ng kh n ng tìm ki m ngày nay mà không có nh ng gi i h n nghiêm tr ng c$a m ng Web ng ngh a r ng l n. Vi c d a vào tiêu chu5n c$a chính xác, ph5m ch#t và s thu h1i òi h2i nhi u h n “s c m nh c b p”. Gán các công c! mô t và phân lo i cho v n b n cung c#p m t thu n l i quan tr ng, b0ng cách tr v các tài li u không c n ch a liên k t theo t ng ch m t cho truy v#n tìm ki m c$a chúng ta. Các b d li u c mô t y $ có th cung c#p m t b c tranh v ph m vi và s phân tán c$a b s u t p tài li u nói chung. i u này có th c th c hi n b i vi c nghiên c u c#u trúc c$a các danh m!c và các danh m!c con ( c g i là s phân lo i_ taxonomy). M t tr ng i nghiêm tr ng cho s ti p c n n vi c phân lo i d li u này là v#n v n có trong b#t c ki u c$a taxonomy – trên th gi i ôi khi ch ng l i s phân lo i. Ví d!, cà chua là trái cây hay rau qu ? Và i u gì x y ra khi chúng ta k t n i hai t p tài li u c ch& m!c trong nh ng h ng khác nhau? Các gi i pháp c g i là các “ontology taxonomy” (phân lo i ontology). Các tìm ki m t khoá thông th ng ti p c n m t t p tài li u mà m t tài li u ch a hay không ch a m t t a ra. Ch& m!c ng ngh a ti m tàng (LSI) thêm m t b c quan tr ng cho vi c x% lí ch& m!c tài li u. Thêm vào vi c ghi nh ng t khoá mà m t tài li u ch a, ph ng pháp này kh o sát toàn b t p d li u, th#y nh ng tài li u khác ch a m t s t t ng ng v i các t ó. LSI c phát tri n u tiên Bellcore trong cu i nh ng n m 80. LSI xem các tài li u có nhi u t thông d!ng là có ngh a, và xem nh ng tài li u ít t thông d!ng là có ít ng ngh a. M"c dù thu t gi i LSI không hi u tí gì v ngh a c$a các t , nó nh n ra các khuôn m u. 0112274 – Ph m Th M Ph ng - 93 - 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc Khi b n tìm ki m m t c s d li u ch& m!c LSI, công c! tìm ki m này xem xét nh ng giá tr t ng t mà nó tính toán cho m i t c$a n i dung, và tr v các tài li u mà nó ngh là thích h p nh#t v i câu truy v#n. B i vì hai tài li u có th r#t g n ngh a v i nhau th m chí n u chúng không cùng chung m t t khoá "c bi t, LSI không yêu c u m t s phân tích l#y t ng x ng tr v các k t qu h u d!ng. ( nh ng v trí mà m t tìm ki m theo t khoá n gi n s* không th c hi n cnu không có phân tích l#y t ng x ng, thì LSI s* th ng tr v nh ng tài li u liên quan mà không ch a t#t c nh ng t khoá ó. 3.3.2.1. Tìm ki m l(y n i dung Vi c l p ch& m!c ng ngh a ti m tàng xem xét các m u t trong m t t p tài li u. Ngôn ng t nhiên có nhi u nh ng t không c n thi t, và không ph i m i t xu#t hi n trong tài li u u ch a ng ngh a. Các t c s% d!ng th ng xuyên trong ti n Anh th ng không ch a n i dung, ví d! nh các t ch c n ng, liên t , gi i t , và các ng t th ng. B c u tiên trong vi c th c thi LSI là ch n l c nh ng t xa l t m t tài li u. thu c n i dung ng ngh a t m t tài li u: 1. T o m t danh sách hoàn ch&nh t#t c các t xu#t hi n trong b s u t p. 2. L c b2 các m o t , các gi i t , và các liên t 3. L c b2 các ng t thông d!ng (know, see, do, be…) 4. L c b2 các it 5. L c b2 các tính t thông d!ng (big, late, high…) 6. L c b2 các t “frilly” (therefore, thus, however, albeit,…) 7. L c b2 m t s t xu#t hi n trong m i tài li u. 8. L c b2 các t xu#t hi n ch& trong m t tài li u. 3.3.2.2. Stemming (lemmatize) Công c! tìm ki m ng ngh a là m t gi i pháp hi u qu áng chú ý. Nó có th phát hi n c 2 tài li u t ng t nhau th m chí n u chúng không có b#t k3 m t t 0112274 – Ph m Th M Ph ng - 94 - 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc nào chung và công c! tìm ki m ng ngh a này có th lo i b2 nh ng tài li u ch& dùng chung nh ng t quan tâm m t cách ph. bi n. M t s công vi c kh i u c n thi t thu th p tài li u s6n sàng cho vi c l p ch& m!c thì r#t "c tr ng ngôn ng , ch+ng h n nh stemming (lemmatize). iv i c g i là The Porter Stemmer các tài li u ti ng Anh, chúng ta s% d!ng thu t toán kh% các ph n uôi thông th ng c$a t , tr v d ng g c c$a nó. (Ví d!: writing → write, writes → write, …). Vi c u tiên là áp d!ng i v i các tài li u riêng bi t, và chúng ta gán cho nó m t tr ng s c!c b . Các t xu#t hi n nhi u l n trong m t tài li u thì có tr ng s l n h n nh ng t ch& xu#t hi n 1 l n. Chúng ta a ra m t gi i thu t t o ra trang web c$a các tài li u và các t – liên k t t#t c các tài li u v i các t . Cho m t mô hình các t và các tài li u, m t ng i có th thi t l p các giá tr d a trên s khác bi t c$a tài li u so v i các tài li u khác. ‘Giá tr ’ c$a m t tài li u b#t k3 so v i các tài li u khác có th c thi t k nh là m t hàm c$a s l ng các k t n i mà ph i c thông qua thi t l p m t k t n i gi a các tài li u. N u 2 tài li u c liên k t v i nhau b i nhi u ng i ( ng k t n i) thì hai tài li u này có th có cùng m t m c t ng quan. Tr ng s c$a t là s# chu,n hoá c a 2 t" có ngh!a thông th 7ng: - Các t xu#t hi n nhi u l n trong m t tài li u thì có nhi u ng ngh a h n t ch& xu#t hi n m t l n. - Nh ng t c s% d!ng th ng xuyên thì có th áng quan tâm h n nh ng t bình th ng. Mô t gi i thu t: V i m i tài li u: 1. “Stem” (l c b2 ti n t và h u t ) t#t cá các t và b2 i nh ng t có ngh a th ng xuyên xu#t hi n. 2. iv im it : a. ánh d#u l i m i tài li u mà có m i quan h tr c ti p n t này. 0112274 – Ph m Th M Ph ng - 95 - 0112398 – T Th Ng c Thanh
- tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc b. Tính i m cho m i tài li u d a trên hàm tính kho ng cách t tài li u xu#t phát n các m i quan h c$a t . 3. V i m i tài li u có m i quan h m i ch a c ánh d#u thì ti n hành l u v t. L"p l i các thao tác nh trên m t cách qui. Gi i thu t tính tr ng s chi ti t c s% d!ng nh sau: 1. i v i m i l n t ng kho ng cách, chia i m s cho 2. 2. i m s cho m i tài li u b0ng v i giá tr gi i h n chia cho c n b c hai tính ph. bi n c$a t . Toàn b thu t gi i này a ra m t cái nhìn ng ngh a th#p d a vào ng i t m t tài li u ns 1t . Chu5n c trình bày ây là tr ng h p n gi n nh#t và nó có th cc i ti n theo nhi u cách khác nhau. Có nhi u gi i thu t tính i m khác có th c s% d!ng. Thêm vào ó, m t t i n 1ng ngh a có th c áp d!ng giúp kh c ph!c các v#n ng ngh a. M t th% thách áng quan tâm là làm cho gi i thu t làm vi c mà khi các tài li u m i c thêm vào chúng s* l p t c t tính i m. M t thách th c khác là tìm ra m t cách mà có th a gi i thu t n nhi u máy. 3.3. Mô hình ngh- cho 'ng d ng tìm ki m ng% ngh!a trên l!nh v#c eDoc T nh ng c s lí thuy t ã nghiên c u trên, chúng em t.ng h p l i và ngh mô hình cho ng d!ng tìm ki m ng ngh a trong l nh v c eDoc. 0112274 – Ph m Th M Ph ng - 96 - 0112398 – T Th Ng c Thanh
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Luận văn Thạc sĩ: Kỹ thuật nâng cao hiệu quả tra cứu sách tại Thư viện trường Cao đẳng Kinh tế công nghệ TPHCM
107 p | 68 | 14
-
Tìm hiểu ngữ nghĩa trên lính vực eDoc (Phan Thị Mỹ Phượng vs Từ Thị Ngọc Thanh) - 2
38 p | 57 | 10
-
Tìm hiểu ngữ nghĩa trên lính vực eDoc (Phan Thị Mỹ Phượng vs Từ Thị Ngọc Thanh) - 4
38 p | 64 | 10
-
Tìm hiểu ngữ nghĩa trên lính vực eDoc (Phan Thị Mỹ Phượng vs Từ Thị Ngọc Thanh) - 1
38 p | 56 | 9
-
Luận văn Thạc sĩ Khoa học giáo dục: Tìm hiểu cơ chế hoạt động giao tiếp bằng ngôn ngữ của học sinh tiểu học trong giờ kể chuyện theo quan điểm tiếp cận của ngữ dụng học
93 p | 21 | 7
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn