L(cid:1)I C(cid:2)M (cid:3)N
(cid:1)(cid:2)u tiên, chúng em xin g(cid:3)i l(cid:4)i c(cid:5)m (cid:6)n (cid:7)(cid:8)n Th(cid:2)y, Cô khoa Công ngh(cid:9) Thông tin
tr(cid:10)(cid:4)ng (cid:1)(cid:11)i h(cid:12)c Khoa h(cid:12)c T(cid:13) nhiên (cid:7)ã t(cid:14)n tình d(cid:11)y d(cid:15), dìu d(cid:16)t chúng em su(cid:17)t b(cid:17)n n(cid:18)m
(cid:7)(cid:11)i h(cid:12)c.
Chúng em c(cid:5)m (cid:6)n Cô Ph(cid:11)m Th(cid:19) B(cid:11)ch Hu(cid:9), ng(cid:10)(cid:4)i t(cid:14)n tình h(cid:10)(cid:20)ng d(cid:21)n, giúp (cid:7)(cid:22),
(cid:7)(cid:23)ng viên chúng em hoàn thành lu(cid:14)n v(cid:18)n này.
Cu(cid:17)i cùng, chúng con c(cid:5)m (cid:6)n Ba, M(cid:24) và nh(cid:25)ng ng(cid:10)(cid:4)i thân (cid:7)ã khích l(cid:9), h(cid:15) tr(cid:26),
(cid:7)(cid:23)ng viên chúng con trong th(cid:4)i gian h(cid:12)c t(cid:14)p, nghiên c(cid:27)u (cid:7)(cid:28) có (cid:7)(cid:10)(cid:26)c thành qu(cid:5) nh(cid:10)
ngày nay.
Tháng 7 n(cid:18)m 2005
Sinh viên
Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
1
NH(cid:4)N XÉT C(cid:5)A GIÁO VIÊN H(cid:6)(cid:7)NG D(cid:8)N
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………………………………………………....
……………………………………………………………………………………
Ngày…… tháng……n(cid:18)m 2005
Ký tên
2
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
NH(cid:4)N XÉT C(cid:5)A GIÁO VIÊN PH(cid:2)N BI(cid:9)N
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………….………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………
Ngày…… tháng……n(cid:18)m 2005
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 3 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
Ký tên
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
M(cid:10)C L(cid:10)C
2.2.
2.2.1. 2.2.2. 2.2.3. 2.2.4. 2.2.5. 2.2.6. 2.2.7.
2.3.
2.3.1. 2.3.2. 2.3.3.
2.4.1. 2.4.2. 2.4.3.
3.3.1. 3.3.2.
3.4.1. 3.4.2. 3.4.3. 3.4.4.
M(cid:11) (cid:12)(cid:13)U.................................................................................................................................10 Ch(cid:14)(cid:15)ng 1 : T(cid:16)NG QUAN.....................................................................................................11 1.1. (cid:1)"t v#n (cid:7)(cid:31) ................................................................................................................ 11 1.2. Bài toán gi(cid:5)i quy(cid:8)t ................................................................................................... 13 1.3. H(cid:10)(cid:20)ng ti(cid:8)p c(cid:14)n......................................................................................................... 14 Ch(cid:14)(cid:15)ng 2 : C(cid:3) S(cid:11) LÝ THUY(cid:17)T ........................................................................................17 2.1. Chi(cid:8)n l(cid:10)(cid:26)c tìm ki(cid:8)m thông tin c$a các b(cid:23) tìm ki(cid:8)m (Search Engine) ..................... 17 2.1.1. M(cid:23)t s(cid:17) search engine thông d!ng: ................................................................... 17 Chi(cid:8)n l(cid:10)(cid:26)c tìm ki(cid:8)m ........................................................................................ 32 2.1.2. Nguyên lý ho(cid:11)t (cid:7)(cid:23)ng........................................................................................................ 34 Semantic Web .......................................................................................................... 34 Khái ni(cid:9)m......................................................................................................... 34 Ki(cid:8)n trúc .......................................................................................................... 36 Các thách th(cid:27)c (cid:7)"t ra cho Semantic web ......................................................... 37 So sánh web và web ng(cid:25) ngh a........................................................................ 41 Các khái ni(cid:9)m liên quan................................................................................... 42 Ontology .......................................................................................................... 44 Rdf ................................................................................................................... 46 eDoc ......................................................................................................................... 55 Tìm hi(cid:28)u eLearning.......................................................................................... 55 Tìm hi(cid:28)u eLib................................................................................................... 61 Tìm hi(cid:28)u eDoc ................................................................................................. 68 2.4. M(cid:23)t s(cid:17) v#n (cid:7)(cid:31) trong x% lí ngôn ng(cid:25) t(cid:13) nhiên: ......................................................... 71 V#n (cid:7)(cid:31) trong vi(cid:9)c x% lí v(cid:18)n b(cid:5)n:...................................................................... 72 V#n (cid:7)(cid:31) x% lí ng(cid:25) ngh a: ................................................................................... 72 Phân lo(cid:11)i v(cid:18)n b(cid:5)n (Text Classification)........................................................... 82 Ch(cid:14)(cid:15)ng 3 : MÔ HÌNH VÀ GI(cid:2)I THU(cid:4)T ..........................................................................84 3.1. Công ngh(cid:9) tìm ki(cid:8)m ng(cid:25) ngh a trên th(cid:8) gi(cid:20)i hi(cid:9)n nay: ........................................... 84 3.2. Các b(cid:10)(cid:20)c xây d(cid:13)ng m(cid:23)t (cid:27)ng d!ng semantic search engine:.................................... 91 Xây d(cid:13)ng ki(cid:8)n trúc Web ng(cid:25) ngh a:................................................................ 92 L(cid:14)p ch& m!c ng(cid:25) ngh a ti(cid:31)m tàng: ................................................................... 93 3.3. Mô hình (cid:7)(cid:31) ngh(cid:19) cho (cid:27)ng d!ng tìm ki(cid:8)m ng(cid:25) ngh a trên l nh v(cid:13)c eDoc................. 96 3.4. Các gi(cid:5)i thu(cid:14)t s% d!ng ........................................................................................... 100 Gi(cid:5)i thu(cid:14)t x% lý tài li(cid:9)u: ................................................................................. 100 Gi(cid:5)i thu(cid:14)t rút trích siêu d(cid:25) li(cid:9)u: ..................................................................... 102 Gi(cid:5)i thu(cid:14)t phân lo(cid:11)i l nh v(cid:13)c cho tài li(cid:9)u:...................................................... 104 Gi(cid:5)i thu(cid:14)t x% lí câu truy v#n: ......................................................................... 104 Ch(cid:14)(cid:15)ng 4 : CH(cid:6)(cid:3)NG TRÌNH (cid:18)NG D(cid:10)NG....................................................................105 4.1. Gi(cid:20)i thi(cid:9)u ch(cid:10)(cid:6)ng trình (cid:27)ng d!ng: ........................................................................ 105 4.2. Ki(cid:8)n trúc c$a (cid:27)ng d!ng:......................................................................................... 105 4.3. Mô t(cid:5) ph(cid:11)m vi (cid:27)ng d!ng........................................................................................ 107 4.3.1. Mô t(cid:5) bài toán: ............................................................................................... 107
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 4 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
4.3.2.
4.4.1. 4.4.2.
Xác (cid:7)(cid:19)nh yêu c(cid:2)u: .......................................................................................... 107 4.4. Xây d(cid:13)ng (cid:27)ng d!ng: .............................................................................................. 108 Thi(cid:8)t k(cid:8) d(cid:25) li(cid:9)u: ............................................................................................. 108 Thi(cid:8)t k(cid:8) x% lý:................................................................................................ 110 4.5. K(cid:8)t qu(cid:5) ch(cid:10)(cid:6)ng trình ............................................................................................. 112 Th(cid:13)c nghi(cid:9)m ch(cid:10)(cid:6)ng trình .................................................................................... 114 4.6. Ch(cid:14)(cid:15)ng 5 : K(cid:17)T LU(cid:4)N ......................................................................................................118 5.1. (cid:1)ánh giá k(cid:8)t qu(cid:5) nghiên c(cid:27)u ................................................................................. 118 5.1.1. ’u (cid:7)i(cid:28)m ......................................................................................................... 118 Khuy(cid:8)t (cid:7)i(cid:28)m:.................................................................................................. 119 5.1.2. 5.2. H(cid:10)(cid:20)ng phát tri(cid:28)n .................................................................................................... 119 TÀI LI(cid:9)U THAM KH(cid:2)O...................................................................................................120 I. Lu(cid:14)n v(cid:18)n, lu(cid:14)n án:...................................................................................................... 120 II. Sách, eBooks:............................................................................................................. 120 III. Website: ................................................................................................................. 122 PH(cid:10) L(cid:10)C..............................................................................................................................124 1. Cú pháp RDF: ............................................................................................................ 124 2. RDF Gateway: ........................................................................................................... 129 2.1. Ki(cid:8)n trúc c$a RDF Gateway:............................................................................. 130 Tính n(cid:18)ng (Features).......................................................................................... 132 2.2. 3. H(cid:9) th(cid:17)ng nhãn ng(cid:25) ngh a:.......................................................................................... 138 3.1. Nhãn ng(cid:25) ngh a c(cid:6) b(cid:5)n cho danh t(cid:30): ................................................................. 139 3.2. Nhãn ng(cid:25) ngh a c(cid:6) b(cid:5)n cho (cid:7)(cid:23)ng t(cid:30):................................................................. 141 3.3. Nhãn ng(cid:25) ngh a c(cid:6) b(cid:5)n cho tính t(cid:30):................................................................... 142 3.4. H(cid:9) th(cid:17)ng nhãn ng(cid:25) ngh a LDOCE .................................................................... 142 4. H(cid:9) c(cid:6) s(cid:3) tri th(cid:27)c ng(cid:25) ngh a t(cid:30) v(cid:13)ng WordNet .......................................................... 144 4.1. H(cid:9) th(cid:17)ng nhãn ng(cid:25) ngh a c$a danh t(cid:30): .............................................................. 144 4.2. H(cid:9) th(cid:17)ng nhãn ng(cid:25) ngh a c$a (cid:7)(cid:23)ng t(cid:30):.............................................................. 149
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 5 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
DANH M(cid:10)C CÁC B(cid:2)NG
B(cid:19)ng 1 : B(cid:19)ng h(cid:14)(cid:20)ng d(cid:21)n nhanh v(cid:22) cách s(cid:23) d(cid:24)ng m(cid:25)t s(cid:26) search engine ph(cid:27) bi(cid:28)n ......... 28 B(cid:19)ng 2: S(cid:15) l(cid:14)(cid:29)c v(cid:22) các (cid:30)(cid:31)c tr(cid:14)ng c a m(cid:25)t s(cid:26) search engine thông d(cid:24)ng trên Internet .. 32 B(cid:19)ng 3 : Các l(cid:20)p trong RDF ............................................................................................ 54 B(cid:19)ng 4:Các thu(cid:25)c tính c a RDF........................................................................................... 55 B(cid:19)ng 5: Danh sách các ngh!a và ràng bu(cid:25)c c a các t" th#c trong câu............................. 77 B(cid:19)ng 6 Mô t(cid:19) c(cid:15) s$ d% li&u cho ’ng d(cid:24)ng.......................................................................... 110 B(cid:19)ng 7 Các module c a ch(cid:14)(cid:15)ng trình................................................................................ 110 B(cid:19)ng 8 Module eDocSearch ................................................................................................ 111 B(cid:19)ng 9 Module eDocSearch ................................................................................................ 111 B(cid:19)ng 10 Các câu truy v(n th(cid:23) nghi&m............................................................................... 115 B(cid:19)ng 11 Th(cid:26)ng kê l!nh v#c khoa h)c máy tính ................................................................. 116 B(cid:19)ng 12 Th(cid:26)ng kê l!nh v#c ngh& thu*t. ............................................................................. 116 B(cid:19)ng 13: Nhãn ng% ngh!a c(cid:15) b(cid:19)n cho danh t".................................................................. 140 B(cid:19)ng 14: Nhãn ng% ngh!a c(cid:15) b(cid:19)n cho (cid:30)(cid:25)ng t" .................................................................. 142 B(cid:19)ng 15 : Nhãn ng% ngh!a c(cid:15) b(cid:19)n cho tính t"................................................................... 142 B(cid:19)ng 16: H& th(cid:26)ng nhãn ng% ngh!a LDOCE .................................................................... 144 B(cid:19)ng 17:S# phân l(cid:20)p danh t" trong WordNet.................................................................. 148
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 6 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
DANH M(cid:10)C CÁC HÌNH
Hình 1: Giao di&n c a Google............................................................................................... 18 Hình 2: Giao di&n c a Yahoo................................................................................................ 19 Hình 3: Giao di&n c a Ask Jeeves ........................................................................................ 20 Hình 4: Giao di&n c a AllTheWeb ....................................................................................... 21 Hình 5: Giao di&n c a Teoma ............................................................................................... 22 Hình 6: Giao di&n HotBot ..................................................................................................... 23 Hình 7: Giao di&n c a Altavista............................................................................................ 24 Hình 8: Giao di&n c a Lycos................................................................................................. 25 Hình 9: Ki(cid:28)n trúc t+ng c a Semantic web........................................................................... 36 Hình 10: M(cid:25)t Ontology (cid:30)(cid:15)n gi(cid:19)n......................................................................................... 46 Hình 11: Mô hình d% li&u RDF............................................................................................. 51 Hình 12 : Tiêu chu,n (cid:30)ánh giá tính b(cid:19)o m*t c a eDoc ...................................................... 71 Hình 13 Các quan h& cú pháp và ràng bu(cid:25)c ng% ngh!a ..................................................... 76 Hình 14 Cây quy(cid:28)t (cid:30)-nh trong vi&c ch)n ngh!a phù h(cid:29)p. .................................................. 78 Hình 15: Dòng c(cid:15) s$ tìm ki(cid:28)m Web ................................................................................... 91 Hình 16: Mô hình (cid:30)(cid:22) ngh- cho ’ng d(cid:24)ng tìm ki(cid:28)m ng% ngh!a trên l!nh v#c eDoc .......... 97 Hình 17: Qui trình x(cid:23) lý c a t+ng search engine ................................................................ 99 Hình 18: Gi(cid:19)i thu*t x(cid:23) lý tài li&u: ...................................................................................... 100 Hình 19: Gi(cid:19)i thu*t rút trích siêu d% li&u .......................................................................... 103 Hình 20: S(cid:15) (cid:30). d% li&u quan h& c a ’ng d(cid:24)ng .................................................................. 108 Hình 21: Giao di&n chính c a ’ng d(cid:24)ng ............................................................................ 112 Hình 22: Giao di&n k(cid:28)t qu(cid:19) tìm ki(cid:28)m c a ’ng d(cid:24)ng......................................................... 113 Hình 23: Giao di&n qu(cid:19)n lí tài nguyên ............................................................................... 113 Hình 24: Ki(cid:28)n trúc c a RDF Gateway............................................................................... 130 Hình 25: Giao di&n c a RQF Query Analyzer. ................................................................. 136
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 7 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
DANH M(cid:10)C CÁC T/ VI(cid:17)T T0T
Electronic document eDoc
Electronic library eLib
eLearning Electronic learning
World Wide Web www
Uniform Resource Identifier URI
Uniform Resource Locator URL
Hypertext Transfer Protocol HTTP
Resources Descriprion Framework RDF
Ontology Inference Language OIL
Ontology Web Language OWL
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 8 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
eXtensible Markup Language XML
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
DANH M(cid:10)C CÁC THU(cid:4)T NG1
L(cid:20)p Class
Thu(cid:23)c tính Property
Siêu d(cid:25) li(cid:9)u Metadata
Ch$ (cid:7)(cid:31), ch$ ng(cid:25) Subject
Tiêu (cid:7)(cid:31) Title
Namespace Không gian tên
V(cid:19) ng(cid:25) Predicate
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 9 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
B(cid:23) ba (subject, predicate, object) Triple
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
M( (cid:1))U
Hi(cid:9)n nay, h(cid:2)u h(cid:8)t các h(cid:9) th(cid:17)ng tìm ki(cid:8)m trên Internet (cid:7)(cid:31)u (cid:7)i theo h(cid:10)(cid:20)ng truy(cid:31)n
th(cid:17)ng (cid:7)ó là tìm ki(cid:8)m theo t(cid:30) khoá ( key word ). Theo cách tìm ki(cid:8)m này, khi ta gõ vào
t(cid:30) c(cid:2)n tìm, các h(cid:9) th(cid:17)ng tìm ki(cid:8)m s* hi(cid:28)n th(cid:19) các tài li(cid:9)u mà trong nó có ch(cid:27)a t(cid:30) khoá
c(cid:2)n tìm. Do (cid:7)ó, k(cid:8)t qu(cid:5) tr(cid:5) ra là m(cid:23)t danh sách r#t nhi(cid:31)u các tài li(cid:9)u, mà có th(cid:28) các tài
li(cid:9)u này không liên quan gì (cid:7)(cid:8)n n(cid:23)i dung ta c(cid:2)n tìm. Và (cid:7)ôi khi các h(cid:9) th(cid:17)ng này
không (cid:7)(cid:10)a ra h(cid:8)t các tài li(cid:9)u c(cid:2)n thi(cid:8)t, t(cid:27)c là th(cid:30)a tài li(cid:9)u không c(cid:2)n thi(cid:8)t nh(cid:10)ng l(cid:11)i
thi(cid:8)u h+n nh(cid:25)ng tài li(cid:9)u quan tr(cid:12)ng khác.
V#n (cid:7)(cid:31) (cid:7)"t ra là ta ph(cid:5)i xây d(cid:13)ng m(cid:23)t h(cid:9) th(cid:17)ng tìm ki(cid:8)m nh(cid:10) th(cid:8) nào (cid:7)(cid:28) kh(cid:16)c
ph!c hi(cid:9)n tr(cid:11)ng nêu trên ?
(cid:1)(cid:28) gi(cid:5)i quy(cid:8)t v#n (cid:7)(cid:31) này, ta c(cid:2)n xây d(cid:13)ng h(cid:9) th(cid:17)ng tìm ki(cid:8)m sao cho (cid:7)áp (cid:27)ng
(cid:7)(cid:2)y (cid:7)$ thông tin mà ng(cid:10)(cid:4)i dùng mong mu(cid:17)n, ngh a là ph(cid:5)i xây d(cid:13)ng h(cid:9) th(cid:17)ng tìm
ki(cid:8)m theo ng(cid:25) ngh a d(cid:13)a trên thông tin ng(cid:10)(cid:4)i dùng (cid:7)(cid:10)a vào.
T(cid:30) nh(cid:14)n th(cid:27)c trên chúng em quy(cid:8)t (cid:7)(cid:19)nh ch(cid:12)n (cid:7)(cid:31) tài: Tìm ki(cid:28)m ng% ngh!a ’ng
d(cid:24)ng trên l!nh v#c eDoc (nh(cid:25)ng tài li(cid:9)u (cid:7)i(cid:9)n t% ti(cid:8)ng Anh) v(cid:20)i m!c (cid:7)ích tìm hi(cid:28)u và
xây d(cid:13)ng m(cid:23)t công c! tìm ki(cid:8)m theo ng(cid:25) ngh a (cid:7)(cid:28) có th(cid:28) tìm ki(cid:8)m thông tin chính xác
và (cid:7)(cid:2)y (cid:7)$, (cid:7)(cid:28) có th(cid:28) h(cid:11)n ch(cid:8) (cid:7)(cid:10)(cid:26)c ph(cid:2)n nào v#n (cid:7)(cid:31) tìm ki(cid:8)m theo t(cid:30) khoá c$a các
search engine hi(cid:9)n t(cid:11)i.
Các (cid:7)(cid:17)i t(cid:10)(cid:26)ng nghiên c(cid:27)u liên quan (cid:7)(cid:8)n (cid:7)(cid:31) tài: eDoc, Semantic Web, RDF,
OWL, Metadata,….
Trong ph(cid:11)m vi (cid:7)(cid:31) tài, vì th(cid:4)i gian th(cid:13)c hi(cid:9)n ng(cid:16)n, nên chúng em ch& th% nghi(cid:9)m
ch(cid:10)(cid:6)ng trình tìm ki(cid:8)m trong m(cid:23)t s(cid:17) l nh v(cid:13)c: Khoa h(cid:12)c máy tính (Computer Science),
Ngh(cid:9) thu(cid:14)t (Art). Hai l nh v(cid:13)c này có v, nh(cid:10) không liên h(cid:9) v(cid:20)i nhau nh(cid:10)ng th(cid:13)c t(cid:8)
v(cid:21)n có nh(cid:25)ng tr(cid:10)(cid:4)ng h(cid:26)p c(cid:2)n ph(cid:5)i phân bi(cid:9)t, ví d! nh(cid:10) tài li(cid:9)u v(cid:31) “ngh(cid:9) thu(cid:14)t l(cid:14)p
trình” (“Art of programming”) thì ph(cid:5)i phân tài li(cid:9)u v(cid:31) l nh v(cid:13)c khoa h(cid:12)c máy tính
ch(cid:27) không ph(cid:5)i ngh(cid:9) thu(cid:14)t …. Tóm l(cid:11)i, (cid:27)ng d!ng mà chúng em xây d(cid:13)ng ch& tìm ki(cid:8)m
thông tin trong các l nh v(cid:13)c nêu trên. Tuy nhiên, (cid:27)ng d!ng có th(cid:28) d- dàng m(cid:3) r(cid:23)ng ra
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 10 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
nhi(cid:31)u l nh v(cid:13)c còn l(cid:11)i.
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
Ch(cid:14)(cid:15)ng 1 : T(cid:16)NG QUAN
1.1. (cid:12)(cid:31)t v(n (cid:30)(cid:22)
Nhu c(cid:2)u tìm ki(cid:8)m, n(cid:16)m b(cid:16)t thông tin là m(cid:23)t nhu c(cid:2)u không th(cid:28) thi(cid:8)u trong (cid:7)(cid:4)i
s(cid:17)ng c$a m(cid:15)i ng(cid:10)(cid:4)i. Khi vi(cid:9)c s% d!ng World Wide Web (cid:7)ã tr(cid:3) nên ph. bi(cid:8)n r(cid:23)ng
kh(cid:16)p, thì công vi(cid:9)c c$a các search engine c/ng tr(cid:3) thành m(cid:23)t ph(cid:2)n s(cid:17)ng còn và có l(cid:26)i
ích cho Web. Các công c! tìm ki(cid:8)m tr(cid:3) thành nh(cid:25)ng công c! công c(cid:23)ng cho m(cid:12)i
ng(cid:10)(cid:4)i dùng c$a Internet; Google và Yahoo, c/ng tr(cid:3) thành nh(cid:25)ng cái tên quen thu(cid:23)c.
Các công c! tìm ki(cid:8)m hi(cid:9)n nay d(cid:13)a trên m(cid:23)t trong hai d(cid:11)ng c$a công ngh(cid:9) tìm
ki(cid:8)m Web: tìm ki(cid:8)m do con ng(cid:10)(cid:4)i t(cid:13) ch& (cid:7)(cid:10)(cid:4)ng d(cid:21)n và tìm ki(cid:8)m t(cid:13) (cid:7)(cid:23)ng.
Công c! tìm ki(cid:8)m do con ng(cid:10)(cid:4)i ch& (cid:7)(cid:10)(cid:4)ng d(cid:21)n s% d!ng m(cid:23)t c(cid:6) s(cid:3) d(cid:25) li(cid:9)u c$a
các t(cid:30) khoá, các khái ni(cid:9)m, và các tham chi(cid:8)u. Nh(cid:25)ng công c! tìm ki(cid:8)m theo t(cid:30) khoá
tr(cid:5) v(cid:31) m(cid:23)t dãy các trang, nh(cid:10)ng ph(cid:10)(cid:6)ng pháp (cid:7)(cid:6)n gi(cid:5)n này th(cid:10)(cid:4)ng d(cid:21)n (cid:7)(cid:8)n hàng lo(cid:11)t
các k(cid:8)t qu(cid:5) không liên quan và không xác th(cid:13)c. Ho(cid:11)t (cid:7)(cid:23)ng c$a m(cid:23)t công c! tìm ki(cid:8)m
d(cid:13)a trên n(cid:23)i dung là: s* (cid:7)(cid:8)m s(cid:17) l(cid:10)(cid:26)ng các t(cid:30) truy v#n ( các t(cid:30) khoá) so v(cid:20)i các t(cid:30) hi(cid:9)n
di(cid:9)n trong m(cid:15)i trang (cid:7)(cid:10)(cid:26)c ch(cid:27)a trong ch& m!c c$a nó. Sau (cid:7)ó, công c! tìm ki(cid:8)m này s*
s(cid:16)p x(cid:8)p các trang. Ti(cid:8)p c(cid:14)n ph(cid:27)c t(cid:11)p h(cid:6)n b0ng cách (cid:7)(cid:10)a các v(cid:19) trí c$a t(cid:30) khoá vào m(cid:23)t
m(cid:27)c (cid:7)(cid:23) quan tr(cid:12)ng c! th(cid:28). Ví d!, các t(cid:30) khoá xu#t hi(cid:9)n trong th, title c$a trang web thì
quan tr(cid:12)ng h(cid:6)n trong ph(cid:2)n body. Các ki(cid:28)u khác c$a công c! tìm ki(cid:8)m do ng(cid:10)(cid:4)i dùng
ch& (cid:7)(cid:10)(cid:4)ng d(cid:21)n, nh(cid:10) Yahoo, s% d!ng các l(cid:10)(cid:26)c (cid:7)1 ch$ (cid:7)(cid:31) (cid:7)(cid:28) giúp ch& h(cid:10)(cid:20)ng tìm ki(cid:8)m và
tr(cid:5) v(cid:31) các k(cid:8)t qu(cid:5) có liên quan h(cid:6)n. Nh(cid:25)ng l(cid:10)(cid:26)c (cid:7)1 ch$ (cid:7)(cid:31) này do con ng(cid:10)(cid:4)i t(cid:11)o ra.
B(cid:3)i lí do này, chúng ta ph(cid:5)i t(cid:17)n chi phí t(cid:11)o ra và duy trì trong các t(cid:30) mang “ý ngh a
th(cid:4)i gian” (thay (cid:7).i theo th(cid:4)i gian), và r1i thì không (cid:7)(cid:10)(cid:26)c c(cid:14)p nh(cid:14)t th(cid:10)(cid:4)ng xuyên nh(cid:10)
các h(cid:9) th(cid:17)ng t(cid:13) (cid:7)(cid:23)ng.
Cách ti(cid:8)p c(cid:14)n tìm theo t(cid:30) khoá v(cid:21)n còn m(cid:23)t s(cid:17) h(cid:11)n ch(cid:8), (cid:7)i(cid:31)u này (cid:7)ã làm gi(cid:5)m
(cid:7)i tính (cid:7)úng (cid:7)(cid:16)n c$a các search engine. Ví d! nh(cid:10) các t(cid:30) (cid:7)1ng âm khác ngh a (ch+ng
h(cid:11)n: bank (ngân hàng), bank (b(cid:4) sông), …) ho"c các t(cid:30) có các bi(cid:8)n th(cid:28) khác nhau do
có các ti(cid:31)n t(cid:17) và h(cid:14)u t(cid:17) nh(cid:10) student và students; small, smaller, smallest; …. Ngoài ra,
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 11 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
các search engine không tr(cid:5) v(cid:31) các tài li(cid:9)u có các t(cid:30) (cid:7)1ng ngh a v(cid:20)i các t(cid:30) trong câu
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
truy v#n mà ng(cid:10)(cid:4)i dùng nh(cid:14)p vào. Key word không (cid:7)$ (cid:7)(cid:28) bi(cid:28)u di-n chính xác nhu
c(cid:2)u c$a ng(cid:10)(cid:4)i dùng c/ng nh(cid:10) n(cid:23)i dung các trang web, h(cid:11)n ch(cid:8) này làm cho các search
engine tr(cid:5) v(cid:31) nh(cid:25)ng tài li(cid:9)u không liên quan (cid:7)(cid:8)n v#n (cid:7)(cid:31) mà ng(cid:10)(cid:4)i dùng quan tâm. B(cid:3)i
vì t*p h(cid:29)p các t" khóa là d(cid:11)ng bi(cid:28)u di-n s(cid:6) l(cid:10)(cid:26)c nh#t c$a n(cid:23)i dung, và do (cid:7)ó, cách
bi(cid:28)u di-n này là m(cid:23)t d(cid:11)ng góc nhìn lu(cid:14)n lý (logical view) c$a n(cid:23)i dung mang m’c (cid:30)(cid:25)
thông tin th(p nh(t, (cid:7)ó chính là lý do c(cid:6) b(cid:5)n khi(cid:8)n cho các Search Engine hi(cid:9)n nay
có t2 l& s(cid:26) trang web h%u ích trên t(cid:27)ng s(cid:26) trang web tr(cid:19) v(cid:22) th(p.
Google v(cid:20)i 400 tri(cid:9)u tài li(cid:9)u thu v(cid:31) m(cid:15)i ngày và trên 8 t& trang web (cid:7)(cid:10)(cid:26)c l(cid:14)p ch&
m!c, và là công c! tìm ki(cid:8)m thông d!ng nh#t (cid:7)(cid:10)(cid:26)c s% d!ng ngày nay, nh(cid:10)ng th(cid:14)m chí
v(cid:20)i Google v(cid:21)n còn có nhi(cid:31)u v#n (cid:7)(cid:31). Ví d!, b0ng cách nào b(cid:11)n tìm ki(cid:8)m ch& v(cid:20)i m(cid:23)t
l(cid:10)(cid:26)ng ít d(cid:25) li(cid:9)u mà b(cid:11)n c(cid:2)n trong m(cid:23)t bi(cid:28)n k(cid:8)t qu(cid:5) không liên quan (cid:7)(cid:10)(cid:26)c (cid:7)(cid:10)a ra?
Khi công ngh(cid:9) trí tu(cid:9) nhân t(cid:11)o (Artificial Intelligence_AI) phát tri(cid:28)n m(cid:11)nh, thì
v#n (cid:7)(cid:31) (cid:7)"t ra là làm th(cid:8) nào (cid:7)(cid:28) (cid:7)(cid:10)a ra nh(cid:25)ng ph(cid:10)(cid:6)ng pháp tìm ki(cid:8)m t(cid:17)t h(cid:6)n mà có th(cid:28)
th(cid:13)c s(cid:13) tin c(cid:14)y vào nh(cid:25)ng k(cid:8)t qu(cid:5) tìm ki(cid:8)m (cid:7)ó. (cid:1)ó là xu h(cid:10)(cid:20)ng c$a nh(cid:25)ng công c! tìm
ki(cid:8)m d(cid:13)a vào ng(cid:25) ngh a và các agent tìm ki(cid:8)m theo ng(cid:25) ngh a. M(cid:23)t công c! tìm ki(cid:8)m
ng(cid:25) ngh a tìm ki(cid:8)m các tài li(cid:9)u có ngh a t(cid:10)(cid:6)ng t(cid:13) nhau ch(cid:27) không ch& nh(cid:25)ng t(cid:30) ng(cid:25)
t(cid:10)(cid:6)ng t(cid:13) nhau. (cid:1)(cid:28) Web tr(cid:3) thành m(cid:23)t m(cid:11)ng ng(cid:25) ngh a, ph(cid:5)i cung c#p nhi(cid:31)u siêu d(cid:25)
li(cid:9)u v(cid:31) n(cid:23)i dung c$a nó, thông qua vi(cid:9)c s% d!ng các th, RDF (Resource Description
Framework) và OWL (Ontology Web Language), các th, này s* giúp th(cid:13)c hi(cid:9)n (cid:7)(cid:10)a
Web vào trong m(cid:11)ng ng(cid:25) ngh a. Trong m(cid:11)ng ng(cid:25) ngh a, ý ngh a c$a n(cid:23)i dung (cid:7)(cid:10)(cid:26)c
th(cid:28) hi(cid:9)n t(cid:17)t h(cid:6)n, và nh(cid:25)ng liên k(cid:8)t logic (cid:7)(cid:10)(cid:26)c th(cid:13)c hi(cid:9)n gi(cid:25)a nh(cid:25)ng thông tin liên quan
nhau.
Công c! tìm ki(cid:8)m ng(cid:25) ngh a, chúng ta (cid:7)(cid:31) c(cid:14)p (cid:3) (cid:7)ây, có hai (cid:10)u (cid:7)i(cid:28)m l(cid:20)n so v(cid:20)i
các công c! tìm ki(cid:8)m truy(cid:31)n th(cid:17)ng:
1. Nó ch#p nh(cid:14)n các truy v#n (cid:7)(cid:10)(cid:26)c phát bi(cid:28)u (cid:3) ngôn ng(cid:25) t(cid:13) nhiên. 2. K(cid:8)t qu(cid:5) là tìm ki(cid:8)m m(cid:23)t m(cid:21)u thông tin; không ph(cid:5)i là m(cid:23)t danh sách các tài
li(cid:9)u có th(cid:28) (ho"c không) ch(cid:27)a thông tin yêu c(cid:2)u.
Th(cid:14)t v(cid:14)y công c! tìm ki(cid:8)m ng(cid:25) ngh a b(cid:16)t (cid:7)(cid:2)u v(cid:20)i l(cid:10)(cid:26)ng thông tin quá t(cid:5)i. Nó
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 12 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
ti(cid:8)p nh(cid:14)n m(cid:23)t s(cid:17) các tác v! không (cid:7)(cid:10)(cid:26)c ai (cid:10)a thích trong vi(cid:9)c tìm ki(cid:8)m thông tin hi(cid:9)n
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
nay: m(cid:3) ra m(cid:15)i tài li(cid:9)u c$a danh sách k(cid:8)t qu(cid:5) và quét nó m(cid:23)t cách th$ công (cid:7)(cid:28) l#y
thông tin. Theo cách (cid:7)ó, các công c! tìm ki(cid:8)m ng(cid:25) ngh a có kh(cid:5) n(cid:18)ng cách m(cid:11)ng hoá,
h(cid:10)(cid:20)ng (cid:7)(cid:8)n vi(cid:9)c tìm ki(cid:8)m thông tin (cid:7)i(cid:9)n t% m(cid:23)t cách t(cid:13) (cid:7)(cid:23)ng: nó thay (cid:7).i mô hình tìm
1.2. Bài toán gi(cid:19)i quy(cid:28)t
ki(cid:8)m t(cid:30) vi(cid:1)c thu h(cid:2)i tài li(cid:1)u (cid:3)(cid:4)n vi(cid:1)c tr(cid:5) l(cid:6)i câu h(cid:7)i.
Theo th(cid:17)ng kê trong n(cid:18)m 2001: “Các nhân viên t(cid:17)n trung bình 8 gi(cid:4) m(cid:23)t tu(cid:2)n,
hay 16% gi(cid:4) công hàng tu(cid:2)n c$a h(cid:12), (cid:7)(cid:28) tìm ki(cid:8)m và s% d!ng n(cid:23)i dung thông tin bên
ngoài. Chi phí l(cid:10)(cid:6)ng ch& riêng cho công ty c$a M(cid:29) là 107 t& (cid:7)ôla m(cid:23)t n(cid:18)m. Vi(cid:9)c tìm
ki(cid:8)m ng(cid:25) ngh a là m(cid:23)t c(cid:6) h(cid:23)i (cid:7)(cid:2)y ý ngh a cho các công ty giúp cho nhân viên c$a h(cid:12)
có kh(cid:5) n(cid:18)ng h(cid:6)n và hi(cid:9)u qu(cid:5) h(cid:6)n trong vi(cid:9)c (cid:7)"t thông tin bên ngoài vào công vi(cid:9)c c$a
h(cid:12).” Không c(cid:2)n nói nhi(cid:31)u thêm n(cid:25)a. S(cid:13) quá t(cid:5)i thông tin là m(cid:23)t v#n (cid:7)(cid:31) l(cid:20)n trong xã
h(cid:23)i thông tin.
Nh(cid:25)ng khám phá t(cid:10)(cid:6)ng t(cid:13) c/ng (cid:7)(cid:10)(cid:26)c tìm th#y trong nhi(cid:31)u nghiên c(cid:27)u, làm n.i
b(cid:14)t v#n (cid:7)(cid:31): ph(cid:5)i (cid:7)(cid:10)a ra gi(cid:5)i pháp trong vi(cid:9)c c(cid:5)i ti(cid:8)n x% lí tìm ki(cid:8)m thông tin. Ngo(cid:11)i tr(cid:30)
nh(cid:25)ng ích l(cid:26)i to l(cid:20)n mà các công c! tìm ki(cid:8)m mang l(cid:11)i cho chúng ta nh(cid:25)ng n(cid:18)m g(cid:2)n
(cid:7)ây b0ng vi(cid:9)c làm cho có th(cid:28) truy c(cid:14)p (cid:7)(cid:8)n hàng tri(cid:9)u các tài li(cid:9)u, b#t ch#p v(cid:19) trí v(cid:14)t lí
và ngôn ng(cid:25), thì chúng v(cid:21)n có m(cid:23)t s(cid:17) h(cid:11)n ch(cid:8) c(cid:6) b(cid:5)n. Ví d!, chúng không “hi(cid:28)u” các
t(cid:30) con ng(cid:10)(cid:4)i gõ vào và do (cid:7)ó (cid:7)(cid:11)t t(cid:20)i m(cid:23)t s(cid:17) l(cid:10)(cid:26)ng kh.ng l1 c$a các k(cid:8)t qu(cid:5) sai. H(cid:6)n
n(cid:25)a, chúng ho(cid:11)t (cid:7)(cid:23)ng hi(cid:9)u qu(cid:5) khi h2i v(cid:31) nh(cid:25)ng s(cid:13) ki(cid:9)n, ch+ng h(cid:11)n nh(cid:10) “Kerry” và
“vua c$a Tây Ban Nha”. Tuy nhiên, chúng th(cid:13)c hi(cid:9)n nhi(cid:31)u k(cid:8)t qu(cid:5) không t(cid:17)t n(cid:8)u câu
truy v#n nói v(cid:31) s(cid:8) liên h(cid:1) gi(cid:25)a các khái ni(cid:9)m ch+ng h(cid:11)n nh(cid:10) “Nh(cid:25)ng qu(cid:17)c gia nào (cid:7)ã
tham gia trong chi(cid:8)n tranh Iraq?” và “t.ng th(cid:17)ng n(cid:10)(cid:20)c Pháp theo chính (cid:1)(cid:5)ng nào?”
Có ba v#n (cid:7)(cid:31) c(cid:2)n (cid:7)(cid:10)(cid:26)c c(cid:5)i ti(cid:8)n (cid:7)(cid:28) c(cid:5)i thi(cid:9)n các k(cid:8)t qu(cid:5) c$a công c! tìm ki(cid:8)m là:
(i) Công c! tìm ki(cid:8)m c(cid:2)n cho phép nh(cid:25)ng truy v#n ph(cid:27)c t(cid:11)p h(cid:6)n (ví
d! trong ngôn ng(cid:25) t(cid:13) nhiên),
(ii) Công c! tìm ki(cid:8)m c(cid:2)n “hi(cid:28)u” nh(cid:25)ng gì con ng(cid:10)(cid:4)i h2i, và (iii) Công c! tìm ki(cid:8)m ph(cid:5)i cung c#p câu tr(cid:5) l(cid:4)i cho truy v#n (có th(cid:28)
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 13 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
sao l(cid:10)u l(cid:11)i nh(cid:25)ng liên k(cid:8)t (cid:7)(cid:8)n các tài li(cid:9)u mà cho ra câu tr(cid:5) l(cid:4)i).
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
1.3. H(cid:14)(cid:20)ng ti(cid:28)p c*n
Có hai ti(cid:8)p c(cid:14)n (cid:7)(cid:28) c(cid:5)i thi(cid:9)n các k(cid:8)t qu(cid:5) tìm ki(cid:8)m thông qua ph(cid:10)(cid:6)ng pháp ng(cid:25)
ngh a:
1. Ki(cid:8)n trúc c$a Semantic Web. 2. L(cid:14)p ch& m!c cho ng(cid:25) ngh a ti(cid:31)m tàng (Latent Semantic Indexing).
Tuy nhiên, h(cid:2)u h(cid:8)t các công c! tìm ki(cid:8)m d(cid:13)a trên ng(cid:25) ngh a ph(cid:5)i ch(cid:19)u nh(cid:25)ng
v#n (cid:7)(cid:31) th(cid:13)c thi b(cid:3)i qui mô c$a m(cid:11)ng ng(cid:25) ngh a r#t l(cid:20)n. Nh0m m!c (cid:7)ích làm cho tìm
ki(cid:8)m ng(cid:25) ngh a tr(cid:3) nên hi(cid:9)u qu(cid:5) trong vi(cid:9)c tìm ki(cid:8)m các k(cid:8)t qu(cid:5) mong mu(cid:17)n, m(cid:11)ng
này ph(cid:5)i ch(cid:27)a m(cid:23)t l(cid:10)(cid:26)ng l(cid:20)n các thông tin liên quan. Cùng lúc (cid:7)ó, m(cid:23)t m(cid:11)ng r(cid:23)ng l(cid:20)n
t(cid:11)o ra nh(cid:25)ng khó kh(cid:18)n trong vi(cid:9)c x% lí nhi(cid:31)u (cid:7)(cid:10)(cid:4)ng d(cid:21)n có th(cid:28) có cho m(cid:23)t gi(cid:5)i pháp
liên quan.
Chúng ta s% d!ng khía c(cid:11)nh s(cid:16)c bén c$a công ngh(cid:9) Web ng(cid:25) ngh a – k(cid:8)t h(cid:26)p
ch"t ch* s(cid:13) ph(cid:17)i h(cid:26)p c$a các công ngh(cid:9) tiên ti(cid:8)n – làm cho mô hình có th(cid:28) chuy(cid:28)n
nhanh trong vi(cid:9)c tìm ki(cid:8)m thông tin.
• Công ngh& x(cid:23) lí ngôn ng% t# nhiên cho phép ng(cid:10)(cid:4)i dùng h2i nh(cid:25)ng
câu h2i mà h(cid:12) mu(cid:17)n, h(cid:6)n là ph(cid:5)i nêu lên nh(cid:25)ng t(cid:30) khoá có liên quan
trong câu h2i c$a h(cid:12).
• Các Ontology (cid:30)-nh ngh!a l!nh v#c quan tâm. Chúng (cid:7)(cid:10)(cid:26)c xem nh(cid:10) là
“b(cid:23) não” c$a công c! tìm ki(cid:8)m, b(cid:3)i vì nó c(cid:17) g(cid:16)ng hi(cid:28)u nh(cid:25)ng câu truy
v#n c$a ng(cid:10)(cid:4)i dùng trong các t(cid:30) c$a ontology này. Theo cách này chú ý
r0ng công c! tìm ki(cid:8)m ng(cid:25) ngh a c$a chúng ta không ph(cid:5)i là có m!c
(cid:7)ích thông th(cid:10)(cid:4)ng nh(cid:10) Google, mà nó có ý (cid:7)(cid:19)nh áp d!ng (cid:7)(cid:17)i v(cid:20)i m(cid:23)t
l nh v(cid:13)c hay khu v(cid:13)c c! th(cid:28) (ví d! v(cid:31) l nh v(cid:13)c pháp lí, v(cid:18)n hoá, th(cid:28) thao
v.v…).
• Phân tích tri th’c. Công ngh(cid:9) này chuy(cid:28)n d(cid:25) li(cid:9)u không có c#u trúc
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 14 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
sang thông tin có c#u trúc. Nó rút trích thông tin t(cid:30) các v(cid:18)n b(cid:5)n t(cid:13) do,
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
các v(cid:18)n b(cid:5)n bán c#u trúc và c#u trúc (cid:7)(cid:28) phát sinh ra ontology v(cid:20)i tri th(cid:27)c
th(cid:14)t s(cid:13).
• Truy c*p tri th’c thông minh. Các câu tr(cid:5) l(cid:4)i cho các truy v#n (cid:7)(cid:11)t
(cid:7)(cid:10)(cid:26)c do vi(cid:9)c truy v#n ontology (cid:7)(cid:10)(cid:26)c (cid:7)(cid:10)a ra t(cid:13) (cid:7)(cid:23)ng, và (cid:7)(cid:10)(cid:26)c bi(cid:28)u di-n
trong nh(cid:25)ng d(cid:11)ng khác nhau:
o “D(cid:1) li(cid:2)u” c$a th(cid:13)c th(cid:28) chính (cid:7)(cid:10)(cid:26)c h2i (cid:7)(cid:8)n (ví d! trong l nh v(cid:13)c
xã h(cid:23)i, d(cid:25) li(cid:9)u c$a m(cid:23)t ngh(cid:9) s ).
o (cid:3)(cid:4)nh h(cid:5)(cid:6)ng ng(cid:1) ngh(cid:7)a. Nh(cid:25)ng t(cid:30) c$a các câu tr(cid:5) l(cid:4)i (cid:7)(cid:10)(cid:26)c t(cid:13)
(cid:7)(cid:23)ng siêu liên k(cid:8)t (cid:7)(cid:8)n các khái ni(cid:9)m ontology con, cho phép (cid:7)(cid:19)nh
h(cid:10)(cid:20)ng b0ng “ý ngh a”.
o Các th(cid:8) thông minh và liên k(cid:9)t thông minh. Các câu tr(cid:5) l(cid:4)i luôn
(cid:7)(cid:10)(cid:26)c sao l(cid:10)u b(cid:3)i các ngu1n và các tài li(cid:9)u chúng d(cid:13)a vào. Khi
nh(cid:25)ng tài li(cid:9)u (cid:7)ó (cid:7)(cid:10)(cid:26)c tra c(cid:27)u, thì ph(cid:2)n m(cid:31)m gán th, và liên k(cid:8)t
s* t(cid:13) (cid:7)(cid:23)ng nh(cid:14)n ra các t(cid:30) ch(cid:27)a ý ngh a l nh v(cid:13)c và liên k(cid:8)t chúng
(cid:7)(cid:8)n ontology, hay thêm vào các th, thông minh v(cid:20)i nh(cid:25)ng ho(cid:11)t
(cid:7)(cid:23)ng (cid:7)(cid:10)(cid:26)c (cid:7)(cid:19)nh ngh a trong ontology.
o S(cid:10) “t(cid:5)(cid:11)ng t(cid:5)(cid:12)ng” thông minh. Thông th(cid:10)(cid:4)ng, các câu tr(cid:5) l(cid:4)i
phát sinh ra nhi(cid:31)u các khái ni(cid:9)m liên quan và các m(cid:17)i quan h(cid:9).
Ph(cid:2)m m(cid:31)m “t(cid:10)(cid:3)ng t(cid:10)(cid:26)ng” thông minh cho phép m(cid:23)t khái ni(cid:9)m (cid:7)i
xuyên qua tri th(cid:27)c này.
Có m(cid:23)t v#n (cid:7)(cid:31) mà công c! tìm ki(cid:8)m ng(cid:25) ngh a (cid:7)(cid:10)(cid:26)c (cid:7)(cid:19)nh ngh a (cid:3) (cid:7)ây v(cid:21)n ch(cid:10)a
th(cid:28) hoàn t#t so v(cid:20)i nh(cid:25)ng công c! tìm ki(cid:8)m v(cid:20)i m!c (cid:7)ích thông th(cid:10)(cid:4)ng (không có ng(cid:25)
ngh a) nh(cid:10) Google (cid:7)ó là: ph(cid:11)m vi. Trong Google b(cid:11)n có th(cid:28) tìm ki(cid:8)m v(cid:20)i b#t k3 t(cid:30)
khoá nào trong b#t k3 l nh v(cid:13)c nào. N(cid:8)u các t(cid:30) khoá xu#t hi(cid:9)n trong m(cid:23)t s(cid:17) tài li(cid:9)u
trên Web, Google s* tìm th#y nó. M(cid:23)t công c! tìm ki(cid:8)m ng(cid:25) ngh a c(cid:2)n m(cid:23)t s(cid:17) tri th(cid:27)c
nâng cao: nó c(cid:2)n bi(cid:8)t ý ngh a, (cid:7)(cid:10)(cid:26)c bi(cid:28)u di-n trong m(cid:23)t ontology. Th(cid:13)c t(cid:8) là các
ontology – trong tr(cid:11)ng thái thi hành hi(cid:9)n t(cid:11)i – v(cid:21)n còn làm b0ng th$ công, h(cid:11)n ch(cid:8)
chúng trong nh(cid:25)ng m!c (cid:7)ích thông th(cid:10)(cid:4)ng. Do (cid:7)ó, các công c! tìm ki(cid:8)m ng(cid:25) ngh a là
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 15 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
nh(cid:25)ng công c! quan tr(cid:12)ng cho nh(cid:25)ng l nh v(cid:13)c c! th(cid:28). Trong tr(cid:10)(cid:4)ng h(cid:26)p này, m!c (cid:7)ích
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
c$a các công c! tìm ki(cid:8)m ng(cid:25) ngh a là b. sung cho các công c! tìm ki(cid:8)m thông
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 16 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
th(cid:10)(cid:4)ng, h(cid:6)n là c(cid:11)nh tranh nh(cid:10) nh(cid:25)ng (cid:7)(cid:17)i th$ .
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
Ch(cid:14)(cid:15)ng 2 : C(cid:3) S(cid:11) LÝ THUY(cid:17)T
2.1. Chi(cid:28)n l(cid:14)(cid:29)c tìm ki(cid:28)m thông tin c a các b(cid:25) tìm ki(cid:28)m (Search Engine)
2.1.1. M(cid:25)t s(cid:26) search engine thông d(cid:24)ng:
Sau (cid:7)ây là danh sách m(cid:23)t s(cid:17) search engine. T(cid:11)i sao chúng (cid:7)(cid:10)(cid:26)c xem là nh(cid:25)ng
search engine “l(cid:20)n”? (cid:1)ó là b(cid:3)i vì chúng (cid:7)(cid:10)(cid:26)c bi(cid:8)t (cid:7)(cid:8)n nhi(cid:31)u và s% d!ng t(cid:17)t. (cid:1)(cid:17)i v(cid:20)i
các chuyên gia web, các công c! tìm ki(cid:8)m l(cid:20)n là danh sách nh(cid:25)ng n(cid:6)i quan tr(cid:12)ng nh#t
b(cid:3)i chúng phát sinh ra m(cid:23)t l(cid:10)(cid:26)ng r#t l(cid:20)n các trang web ti(cid:31)m tàng. (cid:1)(cid:17)i v(cid:20)i nh(cid:25)ng
ng(cid:10)(cid:4)i tìm ki(cid:8)m, các công c! tìm ki(cid:8)m ph. bi(cid:8)n th(cid:10)(cid:4)ng tr(cid:5) ra các k(cid:8)t qu(cid:5) (cid:7)áng tin c(cid:14)y
h(cid:6)n. Nh(cid:25)ng search engine này r#t có th(cid:28) (cid:7)(cid:10)(cid:26)c duy trì t(cid:17)t và nâng c#p khi c(cid:2)n thi(cid:8)t, (cid:7)(cid:28)
gi(cid:25) th(cid:8) cân b0ng v(cid:20)i t(cid:17)c (cid:7)(cid:23) phát tri(cid:28)n c$a web.
Nh(cid:25)ng search engine sau là t#t c(cid:5) nh(cid:25)ng l(cid:13)a ch(cid:12)n t(cid:17)t nh#t (cid:7)(cid:28) b(cid:16)t (cid:7)(cid:2)u khi tìm ki(cid:8)m
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 17 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
thông tin:
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
2.1.1.1. Google: http://www.google.com/
Hình 1: Giao di&n c a Google
Nguyên thu4, Google là m(cid:23)t (cid:7)(cid:31) án c$a tr(cid:10)(cid:4)ng (cid:7)(cid:11)i h(cid:12)c Stanford (cid:7)(cid:10)(cid:26)c th(cid:13)c hi(cid:9)n
b(cid:3)i hai sinh viên Larry Page và Sergey Brin g(cid:12)i là BackRub. (cid:1)(cid:8)n n(cid:18)m 1998, thì (cid:7).i
tên thành Google, và (cid:7)1 án này (cid:7)ã tr(cid:3) thành công ty riêng Google (cid:7)"t t(cid:11)i khuôn viên
tr(cid:10)(cid:4)ng (cid:7)(cid:11)i h(cid:12)c. Nó v(cid:21)n còn (cid:7)(cid:10)(cid:26)c l(cid:10)u gi(cid:25) cho (cid:7)(cid:8)n ngày nay.
Google là công c! tìm ki(cid:8)m n.i ti(cid:8)ng, t(cid:17)t nh#t trong các l(cid:13)a ch(cid:12)n (cid:7)(cid:28) tìm ki(cid:8)m
thông tin trên web. D(cid:19)ch v! d(cid:13)a vào crawler, spider cung c#p trang web v(cid:20)i thông tin
(cid:7)(cid:10)a ra toàn di(cid:9)n cùng v(cid:20)i m(cid:27)c (cid:7)(cid:23) liên quan t(cid:17)t. (cid:1)ây là công c! t(cid:17)t nh#t hi(cid:9)n nay trong
vi(cid:9)c tìm ki(cid:8)m b#t c(cid:27) th(cid:27) gì b(cid:11)n mu(cid:17)n.
Tuy nhiên, Google cung c#p ch(cid:12)n l(cid:13)a (cid:7)(cid:28) tìm ki(cid:8)m ch$ y(cid:8)u v(cid:31) các trang web.
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 18 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
S% d!ng h(cid:23)p tìm ki(cid:8)m trên trang ch$ Google, b(cid:11)n có th(cid:28) d- dàng (cid:7)(cid:19)nh v(cid:19) các (cid:5)nh qua
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
web, nh(cid:25)ng (cid:7)(cid:31) ngh(cid:19) (cid:7)(cid:10)(cid:26)c (cid:7)"t trong các nhóm th(cid:5)o lu(cid:14)n Usenet, (cid:7)(cid:19)nh v(cid:19) thông tin tin
t(cid:27)c hay th(cid:13)c hi(cid:9)n tìm ki(cid:8)m s(cid:5)n ph5m.
2.1.1.2. Yahoo: http://www.yahoo.com/
Hình 2: Giao di&n c a Yahoo
(cid:1)(cid:10)a ra n(cid:18)m 1994, Yahoo là “th(cid:10) m!c” c/ nh#t c$a web, m(cid:23)t n(cid:6)i mà các nhà
biên t(cid:14)p t. ch(cid:27)c các trang web trong các danh m!c. Tuy nhiên, vào tháng 10 n(cid:18)m
2002, Yahoo chuy(cid:28)n sang l(cid:14)p danh sách d(cid:13)a vào crawler cho nh(cid:25)ng k(cid:8)t qu(cid:5) chính c$a
nó. Công c! này s% d!ng công ngh(cid:9) t(cid:30) Google cho (cid:7)(cid:8)n tháng 2 n(cid:18)m 2004. Hi(cid:9)n nay,
Yahoo s% d!ng công ngh(cid:9) tìm ki(cid:8)m riêng c$a mình.
Yahoo Directory v(cid:21)n t1n t(cid:11)i. B(cid:11)n s* ch& ra các liên k(cid:8)t “danh m!c” phía d(cid:10)(cid:20)i
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 19 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
m(cid:23)t s(cid:17) các trang web li(cid:9)t kê trong k(cid:8)t qu(cid:5) tr(cid:5) v(cid:31) c$a m(cid:23)t tìm ki(cid:8)m t(cid:30) khoá. Khi (cid:7)(cid:10)(cid:26)c
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
(cid:7)(cid:31) xu#t, nh(cid:25)ng trang web này d(cid:21)n b(cid:11)n (cid:7)(cid:8)n m(cid:23)t danh sách các trang web (cid:7)ã (cid:7)(cid:10)(cid:26)c xem
xét và phê chu5n b(cid:3)i m(cid:23)t nhà biên t(cid:14)p.
Công ngh(cid:9) AltaVista và AllTheWeb (cid:7)(cid:10)(cid:26)c ph(cid:17)i h(cid:26)p v(cid:20)i k(cid:29) thu(cid:14)t Inktomi, m(cid:23)t
công c! tìm ki(cid:8)m d(cid:13)a trên crawler, (cid:7)(cid:28) t(cid:11)o nên m(cid:23)t Yahoo crawler hi(cid:9)n nay.
2.1.1.3. Ask Jeeves: http://www.askjeeves.com/
Hình 3: Giao di&n c a Ask Jeeves
Ask Jeeves b(cid:16)t (cid:7)(cid:2)u n.i ti(cid:8)ng t(cid:30) n(cid:18)m 1998 và 1999, (cid:7)(cid:10)(cid:26)c bi(cid:8)t nh(cid:10) là m(cid:23)t công
c! tìm ki(cid:8)m “ngôn ng(cid:25) t(cid:13) nhiên” cho phép ta tìm ki(cid:8)m b0ng cách h2i nh(cid:25)ng câu h2i
và tr(cid:5) v(cid:31) k(cid:8)t qu(cid:5) v(cid:20)i nh(cid:25)ng gì có v(cid:9) là tr(cid:5) l(cid:4)i (cid:7)úng v(cid:31) m(cid:12)i th(cid:27).
Th(cid:13)c s(cid:13), công ngh(cid:9) không ph(cid:5)i là nh(cid:25)ng gì làm cho Ask Jeeves th(cid:13)c thi t(cid:17)t.
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 20 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
Bên c(cid:11)nh các b(cid:17)i c(cid:5)nh, công c! này t(cid:11)i m(cid:23)t th(cid:4)i (cid:7)i(cid:28)m có kho(cid:5)ng 100 trình so(cid:11)n th(cid:5)o
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
giám sát các log tìm ki(cid:8)m. Sau (cid:7)ó chúng vào trong web và (cid:7)(cid:19)nh v(cid:19) nh(cid:25)ng site mà
chúng cho là t(cid:17)t nh#t t(cid:10)(cid:6)ng x(cid:27)ng v(cid:20)i các truy v#n ph. bi(cid:8)n nh#t.
2.1.1.4. AllTheWeb: http://www.alltheweb.com/
Hình 4: Giao di&n c a AllTheWeb
(cid:1)(cid:10)(cid:26)c Yahoo cung c#p ngu1n, có th(cid:28) th#y AllTheWeb là m(cid:23)t “tìm ki(cid:8)m thu(cid:2)n
tuý” (“pure search”) nh(cid:24) nhàng h(cid:6)n, tu3 bi(cid:8)n h(cid:6)n và d- ch(cid:19)u h(cid:6)n là khi th(cid:13)c hi(cid:9)n (cid:3)
Yahoo. Tiêu (cid:7)i(cid:28)m là trong tìm ki(cid:8)m web, ngo(cid:11)i tr(cid:30) tin t(cid:27)c, tìm ki(cid:8)m hình (cid:5)nh, video,
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 21 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
MP3 và FPT c/ng (cid:7)(cid:10)(cid:26)c (cid:7)(cid:10)a ra.
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
2.1.1.5. Teoma: http://www.teoma.com/
Hình 5: Giao di&n c a Teoma
Teoma là m(cid:23)t công c! tìm ki(cid:8)m d(cid:13)a trên crawler (cid:7)(cid:10)(cid:26)c s(cid:3) h(cid:25)u b(cid:3)i Ask Jeeves.
Nó có s(cid:17) l(cid:10)(cid:26)ng trang web (cid:7)(cid:10)(cid:26)c ch& m!c nh2 h(cid:6)n Google và Yahoo. N(cid:18)m 2000,
Teoma ra (cid:7)(cid:4)i cùng v(cid:20)i thành công c$a mình: (cid:7)(cid:10)a ra (cid:7)(cid:10)(cid:26)c nh(cid:25)ng th(cid:27) liên quan. Tính
n(cid:18)ng “Refine” c$a công c! này (cid:7)(cid:31) xu#t ra nh(cid:25)ng ch$ (cid:7)(cid:31) (cid:7)(cid:28) kh(cid:5)o sát sau khi b(cid:11)n th(cid:13)c
hi(cid:9)n m(cid:23)t tìm ki(cid:8)m.
Teoma (cid:7)(cid:10)(cid:26)c Ask Jeeves mua vào tháng 9 n(cid:18)m 2001 và c/ng cung c#p m(cid:23)t s(cid:17)
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 22 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
k(cid:8)t qu(cid:5) cho web site này.
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
2.1.1.6. HotBot: http://www.hotbot.com/
Hình 6: Giao di&n HotBot
HotBot h(cid:15) tr(cid:26) truy c(cid:14)p d- dàng (cid:7)(cid:8)n 3 trang web search engine d(cid:13)a vào crawler
l(cid:20)n: Yahoo, Google, và Teoma. Không nh(cid:10) m(cid:23)t meta search engine, nó không th(cid:28) pha
tr(cid:23)n các k(cid:8)t qu(cid:5) t(cid:30) t#t c(cid:5) các crawler này v(cid:20)i nhau. Do (cid:7)ó, nó là m(cid:23)t cách nhanh, d-
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 23 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
dàng (cid:7)(cid:28) l#y các “ý ki(cid:8)n” tìm ki(cid:8)m web khác nhau trong m(cid:23)t n(cid:6)i.
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
2.1.1.7. AltaVista: http://www.altavista.com/
Hình 7: Giao di&n c a Altavista
AltaVista (cid:7)(cid:10)(cid:26)c (cid:7)(cid:10)a ra vào tháng 9 n(cid:18)m 1995 và (cid:7)(cid:10)(cid:26)c xem nh(cid:10) là “Google”
trong m(cid:23)t vài n(cid:18)m, nó cung c#p nh(cid:25)ng k(cid:8)t qu(cid:5) liên quan và (cid:7)ã có m(cid:23)t nhóm ng(cid:10)(cid:4)i
dùng yêu thích công c! tìm ki(cid:8)m này. Nh(cid:10)ng t(cid:30) sau n(cid:18)m 1998, ng(cid:10)(cid:4)i ta không còn (cid:10)a
chu(cid:23)ng AltaVista n(cid:25)a, b(cid:3)i vì s(cid:13) m(cid:20)i m, c$a các danh sách AltaVista và tin t(cid:27)c (cid:7)(cid:10)(cid:26)c
(cid:7)(cid:10)a ra c$a crawler trong trang web này không (cid:7)(cid:10)(cid:26)c c(cid:14)p nh(cid:14)t th(cid:10)(cid:4)ng xuyên.
Ngày nay, AltaVista m(cid:23)t l(cid:2)n n(cid:25)a t(cid:14)p trung vào tìm ki(cid:8)m. Các k(cid:8)t qu(cid:5) (cid:7)(cid:8)n t(cid:30)
Yahoo, và cho phép (cid:7)(cid:8)n các trang web (cid:7)(cid:28) tìm hình (cid:5)nh, MP3/Audio, Video, các danh
sách danh m!c con ng(cid:10)(cid:4)i và các k(cid:8)t qu(cid:5) tin t(cid:27)c. N(cid:8)u mu(cid:17)n m(cid:23)t c(cid:5)m giác nh(cid:24) nhàng
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 24 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
h(cid:6)n Yahoo nh(cid:10)ng v(cid:21)n có các k(cid:8)t qu(cid:5) c$a Yahoo, AltaVista là m(cid:23)t ch(cid:12)n l(cid:13)a t(cid:17)t.
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
2.1.1.8. Lycos: http://www.lycos.com/
Hình 8: Giao di&n c a Lycos
Lycos là m(cid:23)t trong nh(cid:25)ng công c! tìm ki(cid:8)m c/ nh#t trên web, (cid:7)(cid:10)(cid:26)c (cid:7)(cid:10)a ra n(cid:18)m
1994. (cid:1)(cid:10)(cid:26)c mô t(cid:5) nh(cid:10) là nh(cid:25)ng c.ng truy c(cid:14)p web ( web portal ) hay nh(cid:25)ng trung tâm
truy c(cid:14)p, là n(cid:6)i mà ng(cid:10)(cid:4)i dùng (cid:7)i vào (cid:7)(cid:28) l#y thông tin cho m(cid:12)i l nh v(cid:13)c, k(cid:28) c(cid:5) tán g(cid:21)u,
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 25 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
g(cid:3)i th(cid:10) (cid:7)i(cid:9)n t%,…
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
Google AlltheWeb AltaVista Teoma Search
Engine
Database google.com teoma.com alltheweb.com altavista.com
Kho(cid:5)ng 1 t& Kho(cid:5)ng 1 t& Kích th(cid:10)(cid:20)c(# Kho(cid:5)ng 8 t& (1 Kho(cid:5)ng 3 t&,
trang ) t& không (cid:7)ánh ch& m!c trên
ch& m!c trên toàn v(cid:18)n b(cid:5)n.
toàn v(cid:18)n b(cid:5)n)
H(cid:15) tr(cid:26) H(cid:15) tr(cid:26) H(cid:15) tr(cid:26) Không h(cid:15) tr(cid:26) (cid:1)a ph(cid:10)(cid:6)ng
ti(cid:9)n
(multimedia)
Toán t%
M"c (cid:7)(cid:19)nh AND AND AND AND
Lo(cid:11)i tr(cid:30) - - - -
C!m t(cid:30) Dùng d#u “ “ Dùng d#u “ ” Dùng d#u “ ” Dùng d#u “ “
Rút g(cid:12)n Không h(cid:15) tr(cid:26) Không h(cid:15) tr(cid:26) Dùng ký t(cid:13) * Không h(cid:15) tr(cid:26)
Dùng ký t(cid:13) *
(cid:7)(cid:28) thay th(cid:8)
cho các ký t(cid:13)
trong d#u “ “
OR (ch& dùng cho tên AND, OR, AND, OR, Boolean OR (ch& dùng
riêng) ANDNOT, ANDNOT, cho danh t(cid:30)
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 26 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
NEAR, () RANK, () riêng )
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
Dùng d#u “ “ Thông th(cid:10)(cid:4)ng b2 qua Stop words Thông th(cid:10)(cid:4)ng
trong search các t(cid:30) thông d!ng b2 qua các t(cid:30)
c(cid:6) b(cid:5)n + n(cid:8)u mu(cid:17)n tìm thông d!ng
B2 qua trong + n(cid:8)u mu(cid:17)n
search nâng tìm và ph(cid:5)i (cid:7)"t
cao trong c"p d#u
“ “
Danh t(cid:30) Không h(cid:15) tr(cid:26) Không h(cid:15) tr(cid:26) H(cid:15) tr(cid:26) Không h(cid:15) tr(cid:26)
riêng
Gi(cid:20)i h(cid:11)n intitle: Normal.title: Title: intitle:
inurl: field c(cid:2)n tìm url.all: domain: inurl:
allintitle: Link.all: Link: site:
Allinurl: Link.extension image: geoloc:
filetype: : Text: lang:
Link:site: url: last:
Trong search host: afterfate:
nâng cao : Anchor:
cache:info: applet:
Duy(cid:9)t qua các Gi(cid:20)i h(cid:11)n b(cid:3)i Dùng refine (cid:7)(cid:28) t(cid:17)i (cid:10)u Các (cid:7)"c tính ~ tìm t(cid:30) (cid:7)1ng
URL ngày, v(cid:19) trí, k(cid:8)t qu(cid:5). (cid:7)"c bi(cid:9)t ngh a
Trong tìm ngôn ng(cid:25) Resource (cid:7)(cid:28) có (cid:7)(cid:10)(cid:26)c Gi(cid:20)i h(cid:11)n b(cid:3)i
nâng cao : Trong tìm các trang và liên k(cid:8)t ngôn ng(cid:25)
gi(cid:20)i h(cid:11)n b(cid:3)i nâng cao : s% t(cid:14)p trung trên ch$ (cid:7)(cid:31) Nhi(cid:31)u ki(cid:28)u file
: pdf, doc,… ngày, domain, d!ng sortby (cid:7)(cid:28) c(cid:2)n tìm.
Caches : trang (cid:7)(cid:19)a ch& iP l(cid:12)c và s(cid:16)p x(cid:8)p
web khi (cid:7)ánh k(cid:8)t qu(cid:5).
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 27 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
ch& m!c
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
’u (cid:7)i(cid:28)m
Dùng nhi(cid:31)u Tính (cid:7)(cid:23) ph. bi(cid:8)n t(cid:17)t, ’u (cid:7)i(cid:28)m R#t t(cid:17)t v(cid:20)i T(cid:17)t nh(cid:10)
toán t% d(cid:13)a vào s(cid:17) l(cid:10)(cid:26)ng chính nh(cid:25)ng trang Google.
Boolean trong trang web cùng ch$ có (cid:7)(cid:23) ph. bi(cid:8)n Không có
tìm ki(cid:8)m. (cid:7)(cid:31) v(cid:20)i các trang (cid:7)ang cao. stopword.
Trong tìm xét. Th(cid:10)(cid:4)ng (cid:7)(cid:11)t k(cid:8)t Các trang tin
nâng cao h(cid:15) qu(cid:5) (cid:7)áng khích l(cid:9). t(cid:27)c g(cid:2)n (cid:7)ây
tr(cid:26) hi(cid:28)n th(cid:19) k(cid:8)t
qu(cid:5) theo (cid:7)(cid:23)
ph. bi(cid:8)n c$a
t(cid:30).
Google AlltheWeb AltaVista Teoma Search
Engine
B(cid:19)ng 1 : B(cid:19)ng h(cid:14)(cid:20)ng d(cid:21)n nhanh v(cid:22) cách s(cid:23) d(cid:24)ng m(cid:25)t s(cid:26) search engine ph(cid:27) bi(cid:28)n
Linh tinh Search Toán t(cid:23) L#a ch)n tìm C(cid:15) s$ d% li&u
engine ki(cid:28)m
Google Toàn v(cid:18)n b(cid:5)n AND (m"c Dùng * (cid:7)(cid:28) rút Ki(cid:28)m l(cid:15)i chính
http://www.g c$a các trang (cid:7)(cid:19)nh) g(cid:12)n. t(cid:5).
oogle.com web, .pdf, OR (danh t(cid:30) Dùng “” tìm c!m L(cid:10)u tr(cid:25) các trang
H(cid:15) tr(cid:26) tìm .doc, .xls, .ps, riêng) t(cid:30). (cid:7)ã l(cid:14)p ch& m!c.
ki(cid:8)m nâng .wpd + cho các stop Fields : intitle:, T(cid:17)t cho tìm các
cao (4.3B, + 1B word thông inurl:, link:, site: trang hay b(cid:19) l(cid:15)i
H(cid:9) th(cid:17)ng th(cid:10) m(cid:23)t ph(cid:2)n c$a d!ng, cho các Tìm trên h(cid:9) 404.
m!c ch$ (cid:7)(cid:31) ch& m!c URL ho"c các th(cid:17)ng danh m!c Phiên d(cid:19)ch (cid:7)(cid:8)n 5
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 28 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
(Subject URLs) trang c! th(cid:28) (ví các ch$ (cid:7)(cid:31) trong ngôn ng(cid:25).
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
Directory) Tin t(cid:27)c : c(cid:14)p d! +edu) th(cid:10) m!c web. ~ tìm t(cid:30) (cid:7)1ng
H(cid:9) th(cid:17)ng th(cid:10) nh(cid:14)t th(cid:10)(cid:4)ng - lo(cid:11)i tr(cid:30) Tìm các trang ngh a.
m!c m(cid:3) xuyên (4500 web t(cid:10)(cid:6)ng t(cid:13).
(Open ngu1n ).
Directory) Các d(cid:11)ng file
(cid:5)nh
Nhóm :
Usenet t(cid:30)
1981 (cid:7)(cid:8)n nay
AlltheWeb AND (m"c Không rút g(cid:12)n. Toàn b(cid:23) v(cid:18)n Ki(cid:28)m l(cid:15)i chính
http://allthew (cid:7)(cid:19)nh) Dùng d#u “ “ cho b(cid:5)n các trang t(cid:5).
OR, ph(cid:5)i (cid:7)"t c!m t(cid:30). web, .pdf, eb.com Tìm nâng cao :
các t(cid:30) trong Flash, H(cid:15) tr(cid:26) tìm Field intitle:inurl: tranh (cid:5)nh, video.
d#u “ “. (3.1B toàn b(cid:23) ki(cid:8)m nâng link:site: H(cid:15) tr(cid:26) s% d!ng
ANDNOT, ch& m!c cao Trong tìm nâng k(cid:29) thu(cid:14)t
RANK URLs) cao : “clusters” (cid:7)(cid:28) t(cid:17)i
- (cid:7)(cid:28) lo(cid:11)i b2 Tin t(cid:27)c : c(cid:14)p gi(cid:20)i h(cid:11)n theo (cid:10)u câu truy v#n.
nh(cid:14)t th(cid:10)(cid:4)ng ngày, ngôn ng(cid:25),
xuyên (3000 domain, file
ngu1n) format, (cid:7)(cid:19)a ch&
Tranh (cid:5)nh iP.
Video
Audio
FPT
AltaVista AND (m"c Toàn b(cid:23) v(cid:18)n Ki(cid:28)m l(cid:15)i chính D#u * (cid:7)(cid:28) rút g(cid:12)n.
http://altavist (cid:7)(cid:19)nh) b(cid:5)n các trang t(cid:5). D#u “” cho c!m
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 29 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
Trong tìm nâng web (kho(cid:5)ng a.com t(cid:30). Phiên d(cid:19)ch : 8
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
H(cid:15) tr(cid:26) tìm 1B) và file cao ho"c danh Tìm nâng cao : ngôn ng(cid:25) c$a
ki(cid:8)m nâng .pdf. t(cid:30) riêng trong gi(cid:20)i h(cid:11)n ngày, Châu Âu & các
cao Tin t(cid:27)c (3000 tìm c(cid:6) b(cid:5)n : ngôn ng(cid:25). ngôn ng(cid:25) c$a
H(cid:9) th(cid:17)ng th(cid:10) ngu1n), (cid:5)nh, AND, OR, Châu Á.
m!c ch$ (cid:7)(cid:31) MP3/Audio, ANDNOT, AltaVistaPrima :
(Subject Video. NEAR, d#u () t(cid:17)i (cid:10)u câu h2i.
Directory ) l1ng nhau.
H(cid:9) th(cid:17)ng th(cid:10) - cho lo(cid:11)i tr(cid:30).
m!c m(cid:3)
(Open
Directory)
Teoma Không rút g(cid:12)n. Toàn b(cid:23) v(cid:18)n AND (m"c Ki(cid:28)m l(cid:15)i chính
http://teoma.c Dùng d#u “ “ cho b(cid:5)n trang web (cid:7)(cid:19)nh) t(cid:5).
c!m t(cid:30). (kho(cid:5)ng 1B) OR (danh t(cid:30) om Gom nhóm k(cid:8)t
riêng) H(cid:15) tr(cid:26) tìm Field intitle:inurl: qu(cid:5) Refine (cid:7)(cid:28) t(cid:17)i
+ ho"c “” cho ki(cid:8)m nâng site:geoloc:lang:l (cid:10)u câu h2i.
stopword cao ast: Resource (cid:7)(cid:28) có
- (cid:7)(cid:28) lo(cid:11)i b2 afterdate:befored các trang ho"c
ate: liên k(cid:8)t t(cid:14)p trung
betweendate: vào ch$ (cid:7)(cid:31).
Trong tìm nâng
cao :
gi(cid:20)i h(cid:11)n theo
ngày, ngôn ng(cid:25),
domain, file
format, (cid:7)(cid:19)a ch&
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 30 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
iP.
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
AskJeeves Gi(cid:17)ng Teoma. Gi(cid:17)ng Teoma. Nh(cid:14)n k(cid:8)t qu(cid:5) Ki(cid:28)m l(cid:15)i chính
www.ask.co (cid:1)(cid:17)i v(cid:20)i nh(cid:25)ng Click vào t(cid:30) CSDL c$a t(cid:5).
câu h2i (cid:7)(cid:6)n Teoma. m Remove Frame
gi(cid:5)n, xu#t hi(cid:9)n Tìm s(cid:5)n ph5m (cid:7)(cid:28) th#y URLs
c%a s. (cid:7)(cid:17)i : c$a các trang.
tho(cid:11)i. PriceGrabber.
com,
Tìm tranh (cid:5)nh
:
Picsearch.co
m
Tìm tin t(cid:27)c :
Moreover.co
m.
AskJeeves for Tr(cid:5) l(cid:4)i t(cid:17)t các H2i b0ng ngôn Click vào No D(cid:21)n (cid:7)(cid:8)n các
Kids câu h2i (cid:7)(cid:6)n ng(cid:25) t(cid:13) nhiên. frames (cid:7)(cid:28) th#y trang ph!c v!
www.ajkids.c gi(cid:5)n. Không s% d!ng URL c$a trang h(cid:12)c t(cid:14)p : t(cid:13) (cid:7)i(cid:28)n,
om Games cho các toán t% k(cid:8)t qu(cid:5). v(cid:14)t lý, khoa h(cid:12)c,
tr, em, Boolean. b(cid:5)n (cid:7)1, l(cid:19)ch
Tin t(cid:27)c theo s%,…
t(cid:30)ng nhóm
tu.i.
Yahoo Xem xét các AND (m"c C!m t(cid:30) : “” Nhi(cid:31)u d(cid:19)ch v!
http://dir.yaho trang web Rút g(cid:12)n : * (cid:7)(cid:19)nh) trong Yahoo:
o.com OR (kho(cid:5)ng 13K) Fields t: title, Tin t(cid:27)c : t(cid:30)ng
u:URL gi(cid:4).
Th(cid:28) thao :t& s(cid:17),..
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 31 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
B(cid:5)n (cid:7)1, th(cid:4)i ti(cid:8)t,
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
mua s(cid:16)m.
B(cid:19)ng 2: S(cid:15) l(cid:14)(cid:29)c v(cid:22) các (cid:30)(cid:31)c tr(cid:14)ng c a m(cid:25)t s(cid:26) search engine thông d(cid:24)ng trên Internet
2.1.2. Chi(cid:28)n l(cid:14)(cid:29)c tìm ki(cid:28)m
T(cid:30) “search engine” th(cid:10)(cid:4)ng (cid:7)(cid:10)(cid:26)c s% d!ng r(cid:23)ng rãi (cid:7)(cid:28) mô t(cid:5) các công c! tìm
ki(cid:8)m d(cid:13)a trên crawler và các th(cid:10) m!c do con ng(cid:10)(cid:4)i cung c#p. (cid:1)ây là hai lo(cid:11)i c$a các
search engine t(cid:14)p h(cid:26)p các danh sách c$a chúng trong nh(cid:25)ng cách khác nhau hoàn
toàn.
Search engine d(cid:13)a vào crawler g1m 3 ph(cid:2)n:
(cid:1) B(cid:25) thu th*p thông tin – Robot
Robot là m(cid:23)t ch(cid:10)(cid:6)ng trình t(cid:13) (cid:7)(cid:23)ng duy(cid:9)t qua các c#u trúc siêu liên k(cid:8)t (cid:7)(cid:28) thu
th(cid:14)p tài li(cid:9)u và m(cid:23)t cách (cid:7)(cid:9) quy nó nh(cid:14)n v(cid:31) t#t c(cid:5) các tài li(cid:9)u có liên k(cid:8)t v(cid:20)i tài li(cid:9)u
này.
Robot (cid:7)(cid:10)(cid:26)c bi(cid:8)t (cid:7)(cid:8)n d(cid:10)(cid:20)i nhi(cid:31)u tên g(cid:12)i khác nhau : spider, web wanderer ho"c
web worm, crawler… Nh(cid:25)ng tên g(cid:12)i này (cid:7)ôi khi gây nh(cid:2)m l(cid:21)n, nh(cid:10) t(cid:30) ‘ spider ’, ‘
wanderer ’ làm ng(cid:10)(cid:4)i ta ngh r0ng robot t(cid:13) nó di chuy(cid:28)n và t(cid:30) ‘ worm ’ làm ng(cid:10)(cid:4)i ta
liên t(cid:10)(cid:3)ng (cid:7)(cid:8)n virus. V(cid:31) b(cid:5)n ch#t robot ch& là m(cid:23)t ch(cid:10)(cid:6)ng trình duy(cid:9)t và thu th(cid:14)p
thông tin t(cid:30) các site theo (cid:7)úng giao th(cid:27)c web. Nh(cid:25)ng trình duy(cid:9)t thông th(cid:10)(cid:4)ng không
(cid:7)(cid:10)(cid:26)c xem là robot do thi(cid:8)u tính ch$ (cid:7)(cid:23)ng, chúng ch& duy(cid:9)t web khi có s(cid:13) tác (cid:7)(cid:23)ng c$a
con ng(cid:10)(cid:4)i.
(cid:1) B(cid:25) l*p ch3 m(cid:24)c – Index
H(cid:9) th(cid:17)ng l(cid:14)p ch& m!c hay còn g(cid:12)i là h(cid:9) th(cid:17)ng phân tích và x% lý d(cid:25) li(cid:9)u, th(cid:13)c
hi(cid:9)n vi(cid:9)c phân tích, trích ch(cid:12)n nh(cid:25)ng thông tin c(cid:2)n thi(cid:8)t (th(cid:10)(cid:4)ng là các t(cid:30) (cid:7)(cid:6)n , t(cid:30)
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 32 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
ghép , c!m t(cid:30) quan tr(cid:12)ng) t(cid:30) nh(cid:25)ng d(cid:25) li(cid:9)u mà robot thu th(cid:14)p (cid:7)(cid:10)(cid:26)c và t. ch(cid:27)c thành
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
c(cid:6) s(cid:3) d(cid:25) li(cid:9)u riêng (cid:7)(cid:28) có th(cid:28) tìm ki(cid:8)m trên (cid:7)ó m(cid:23)t cách nhanh chóng, hi(cid:9)u qu(cid:5). H(cid:9)
th(cid:17)ng ch& m!c là danh sách các t(cid:30) khoá, ch& rõ các t(cid:30) khoá nào xu#t hi(cid:9)n (cid:3) trang nào,
(cid:7)(cid:19)a ch& nào.
(cid:1) B(cid:25) tìm ki(cid:28)m thông tin – Search Engine
Search engine là c!m t(cid:30) dùng (cid:7)(cid:28) ch& toàn b(cid:23) h(cid:9) th(cid:17)ng bao g1m b(cid:23) thu th(cid:14)p
thông tin, b(cid:23) l(cid:14)p ch& m!c và b(cid:23) tìm ki(cid:8)m thông tin. Các b(cid:23) này ho(cid:11)t (cid:7)(cid:23)ng liên t!c t(cid:30)
lúc kh(cid:3)i (cid:7)(cid:23)ng h(cid:9) th(cid:17)ng, chúng ph! thu(cid:23)c l(cid:21)n nhau v(cid:31) m"t d(cid:25) li(cid:9)u nh(cid:10)ng (cid:7)(cid:23)c l(cid:14)p v(cid:20)i
nhau v(cid:31) m"t ho(cid:11)t (cid:7)(cid:23)ng.
Search engine t(cid:10)(cid:6)ng tác v(cid:20)i user thông qua giao di(cid:9)n web, có nhi(cid:9)m v! ti(cid:8)p
nh(cid:14)n và tr(cid:5) v(cid:31) nh(cid:25)ng tài li(cid:9)u tho(cid:5) yêu c(cid:2)u c$a user.
Nói nôm na, tìm ki(cid:8)m t(cid:30) là tìm ki(cid:8)m các trang mà nh(cid:25)ng t(cid:30) trong câu truy v#n
(query) xu#t hi(cid:9)n nhi(cid:31)u nh#t, ngo(cid:11)i tr(cid:30) stopword (các t(cid:30) quá thông d!ng nh(cid:10) m(cid:11)o t(cid:30) a,
an, the,…). M(cid:23)t t(cid:30) trong câu truy v#n càng xu#t hi(cid:9)n nhi(cid:31)u trong m(cid:23)t trang thì trang
(cid:7)ó càng (cid:7)(cid:10)(cid:26)c ch(cid:12)n (cid:7)(cid:28) tr(cid:5) v(cid:31) cho ng(cid:10)(cid:4)i dùng. Và m(cid:23)t trang ch(cid:27)a t#t c(cid:5) các t(cid:30) trong câu
truy v#n thì t(cid:17)t h(cid:6)n là m(cid:23)t trang không ch(cid:27)a m(cid:23)t ho"c m(cid:23)t s(cid:17) t(cid:30). Ngày nay, h(cid:2)u h(cid:8)t
các search engine (cid:7)(cid:31)u h(cid:15) tr(cid:26) ch(cid:27)c n(cid:18)ng tìm c(cid:6) b(cid:5)n và nâng cao, tìm t(cid:30) (cid:7)(cid:6)n, t(cid:30) ghép,
c!m t(cid:30), danh t(cid:30) riêng, hay gi(cid:20)i h(cid:11)n ph(cid:11)m vi tìm ki(cid:8)m nh(cid:10) trên (cid:7)(cid:31) m!c, tiêu (cid:7)(cid:31), (cid:7)o(cid:11)n
v(cid:18)n b(cid:5)n gi(cid:20)i thi(cid:9)u v(cid:31) trang web,…..
Ngoài chi(cid:8)n l(cid:10)(cid:26)c tìm chính xác theo t(cid:30) khoá, các search engine còn c(cid:17) g(cid:16)ng
‘hi(cid:28)u’ ý ngh a th(cid:13)c s(cid:13) c$a câu h2i thông qua nh(cid:25)ng câu ch(cid:25) do ng(cid:10)(cid:4)i dùng cung c#p.
(cid:1)i(cid:31)u này (cid:7)(cid:10)(cid:26)c th(cid:28) hi(cid:9)n qua ch(cid:27)c n(cid:18)ng s%a l(cid:15)i chính t(cid:5), tìm c(cid:5) nh(cid:25)ng hình th(cid:27)c bi(cid:8)n
(cid:7).i khác nhau c$a m(cid:23)t t(cid:30). Ví d! : search engine s* tìm nh(cid:25)ng t(cid:30) nh(cid:10) speaker,
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 33 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
speaking, spoke khi ng(cid:10)(cid:4)i dùng nh(cid:14)p vào t(cid:30) speak.
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
Nguyên lý ho4t (cid:30)(cid:25)ng
Search engine (cid:7)i(cid:31)u khi(cid:28)n robot (cid:7)i thu th(cid:14)p thông tin trên m(cid:11)ng thông qua các
siêu liên k(cid:8)t ( hyperlink ). Khi robot phát hi(cid:9)n ra m(cid:23)t site m(cid:20)i, nó g(cid:3)i tài li(cid:9)u (web
page) v(cid:31) cho server chính (cid:7)(cid:28) t(cid:11)o c(cid:6) s(cid:3) d(cid:25) li(cid:9)u ch& m!c ph!c v! cho nhu c(cid:2)u tìm ki(cid:8)m
thông tin.
B(cid:3)i vì thông tin trên m(cid:11)ng luôn thay (cid:7).i nên robot ph(cid:5)i liên t!c c(cid:14)p nh(cid:14)t các
site c/. M(cid:14)t (cid:7)(cid:23) c(cid:14)p nh(cid:14)t ph! thu(cid:23)c vào t(cid:30)ng h(cid:9) th(cid:17)ng search engine. Khi search engine
nh(cid:14)n câu truy v#n t(cid:30) user, nó s* ti(cid:8)n hành phân tích, tìm trong c(cid:6) s(cid:3) d(cid:25) li(cid:9)u ch& m!c
2.2. Semantic Web
và tr(cid:5) v(cid:31) nh(cid:25)ng tài li(cid:9)u tho(cid:5) yêu c(cid:2)u.
Khái ni&m 2.2.1.
“Web ng(cid:25) ngh a” là m(cid:23)t d(cid:11)ng m(cid:3) r(cid:23)ng c$a web hi(cid:9)n nay, mà cho phép ta truy
tìm, chia s,, ph(cid:17)i h(cid:26)p, s% d!ng l(cid:11)i và rút trích thông tin m(cid:23)t cách chính xác, d- dàng.”(
Tim – Berners Lee, XML – 2000 ).
Web ng(cid:25) ngh a là m(cid:23)t m(cid:11)ng l(cid:10)(cid:20)i thông tin (cid:7)(cid:10)(cid:26)c liên k(cid:8)t theo cách mà máy tính
có th(cid:28) d- dàng x% lý (cid:7)(cid:10)(cid:26)c trên quy mô toàn c(cid:2)u. Chúng ta có th(cid:28) xem web ng(cid:25) ngh a
nh(cid:10) là m(cid:23)t c(cid:6) s(cid:3) d(cid:25) li(cid:9)u toàn c(cid:2)u (cid:7)(cid:10)(cid:26)c liên k(cid:8)t v(cid:20)i nhau.
Web ng(cid:25) ngh a (cid:7)(cid:10)(cid:26)c phát tri(cid:28)n b(cid:3)i Tim – Berners Lee, nhà phát minh c$a
WWW, URIs, HTTP, và HTML. Hi(cid:9)n nay có m(cid:23)t nhóm nghiên c(cid:27)u t(cid:11)i t(cid:14)p (cid:7)oàn
WWW (cid:7)ang c(cid:5)i ti(cid:8)n, m(cid:3) r(cid:23)ng và tiêu chu5n hoá h(cid:9) th(cid:17)ng ng(cid:25) ngh a.
D(cid:25) li(cid:9)u trong t(cid:14)p tin HTML th(cid:10)(cid:4)ng h(cid:25)u ích trong m(cid:23)t s(cid:17) tr(cid:10)(cid:4)ng h(cid:26)p. Ph(cid:2)n l(cid:20)n
d(cid:25) li(cid:9)u trên web là d(cid:11)ng HTML nên khó s% d!ng trên quy mô l(cid:20)n, b(cid:3)i vì nó không có
m(cid:23)t h(cid:9) th(cid:17)ng toàn c(cid:2)u (cid:7)(cid:28) xu#t b(cid:5)n d(cid:25) li(cid:9)u.
Do (cid:7)ó, Web ng(cid:25) ngh a (cid:7)(cid:10)(cid:26)c xem nh(cid:10) là m(cid:23)t gi(cid:5)i pháp k(cid:29) thu(cid:14)t.
Web ng(cid:25) ngh a (cid:7)(cid:10)(cid:26)c xây d(cid:13)ng ch$ y(cid:8)u trên cú pháp s% d!ng URIs (cid:7)(cid:28) bi(cid:28)u di-n
d(cid:25) li(cid:9)u, th(cid:10)(cid:4)ng th#y là c#u trúc d(cid:13)a trên b(cid:23) ba (subject, predicate, object), ví d!: nhi(cid:31)u
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 34 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
b(cid:23) ba c$a d(cid:25) li(cid:9)u URI có th(cid:28) (cid:7)(cid:10)(cid:26)c c#t gi(cid:25) trong c(cid:6) s(cid:3) d(cid:25) li(cid:9)u, ho"c thay th(cid:8) l(cid:21)n nhau
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
trên word wide web b0ng cách s% d!ng m(cid:23)t t(cid:14)p các cú pháp (cid:7)"c bi(cid:9)t (cid:7)(cid:10)(cid:26)c pháp tri(cid:28)n
chuyên bi(cid:9)t ph!c v! cho nhi(cid:9)m v! (cid:7)ó. Cú pháp này (cid:7)(cid:10)(cid:26)c g(cid:12)i là cú pháp RDF.
Web ng(cid:25) ngh a yêu c(cid:2)u d(cid:25) li(cid:9)u không nh(cid:25)ng máy có th(cid:28) (cid:7)(cid:12)c (cid:7)(cid:10)(cid:26)c mà còn
mong mu(cid:17)n máy có th(cid:28) hi(cid:28)u (cid:7)(cid:10)(cid:26)c. Trích d(cid:21)n câu nói c$a Tim – Berners Lee:
“The semantic web goal is to be a unifying system which will (like the web for
human communication) be as un-restraining as possible so that the complexity of
reality can be described”.
T(cid:11)m d(cid:19)ch là: “M!c (cid:7)ích c$a web ng(cid:25) ngh a là (cid:7)(cid:28) m(cid:23)t h(cid:9) th(cid:17)ng h(cid:26)p nh#t (gi(cid:17)ng
nh(cid:10) web dành cho s(cid:13) giao ti(cid:8)p c$a ng(cid:10)(cid:4)i) càng không b(cid:19) c(cid:5)n tr(cid:3) càng t(cid:17)t (cid:7)(cid:28) mà (cid:7)(cid:23)
ph(cid:27)c t(cid:11)p c$a th(cid:13)c t(cid:8) có th(cid:28) (cid:7)(cid:10)(cid:26)c mô t(cid:5)”.
V(cid:20)i web ng(cid:25) ngh a, nó s* d- dàng nh(cid:14)n bi(cid:8)t toàn b(cid:23) ph(cid:11)m vi c$a các công c!
và (cid:27)ng d!ng khó gi(cid:5)i quy(cid:8)t trong khuôn kh. c$a web hi(cid:9)n t(cid:11)i.
Hai công ngh(cid:9) quan tr(cid:12)ng cho vi(cid:9)c phát tri(cid:28)n semantic web là: eXtensible
Markup Language (XML) và Resource Description Frameword (RDF). XML cho
phép m(cid:12)i ng(cid:10)(cid:4)i có th(cid:28) t(cid:11)o ra các tag (th, ) c$a riêng mình. Còn RDF thì trình bày ng(cid:25)
ngh a, RDF s% d!ng t(cid:14)p các triple (cid:7)(cid:28) mô t(cid:5) các khái ni(cid:9)m c(cid:6) s(cid:3).
URI ( Uniform Resource Identifier):
M(cid:23)t URI (cid:7)(cid:6)n gi(cid:5)n dùng (cid:7)(cid:28) nh(cid:14)n bi(cid:8)t m(cid:23)t trang web: gi(cid:17)ng nh(cid:10) các chu(cid:15)i b(cid:16)t
(cid:7)(cid:2)u v(cid:20)i “http” hay “ftp” mà b(cid:11)n th(cid:10)(cid:4)ng th#y trên word wide web. B#t k3 ai c/ng có
th(cid:28) t(cid:11)o ra m(cid:23)t URI và quy(cid:31)n s(cid:3) h(cid:25)u chúng (cid:7)(cid:10)(cid:26)c u4 quy(cid:31)n m(cid:23)t cách rõ ràng, chính vì
v(cid:14)y chúng t(cid:11)o nên c(cid:6) s(cid:3) quan ni(cid:9)m (cid:7)(cid:28) xây d(cid:13)ng web toàn c(cid:2)u. Th(cid:13)c ra, word wide
web có th(cid:28) xem nh(cid:10) là: b#t k3 th(cid:27) gì mà có URI (cid:7)(cid:10)(cid:26)c coi nh(cid:10) là “on the web”.
Các URIs là các chu(cid:15)i ký t(cid:13) có th(cid:28) nh(cid:14)n bi(cid:8)t các tài nguyên trên web. Thông
qua vi(cid:9)c s% d!ng URIs, chúng ta có th(cid:28) s% d!ng cùng cách (cid:7)"t tên (cid:7)(cid:6)n gi(cid:5)n (cid:7)(cid:28) tham
chi(cid:8)u (cid:7)(cid:8)n các tài nguyên d(cid:10)(cid:20)i các nghi th(cid:27)c (protocol) khác nhau nh(cid:10) là: HTTP, FTP,
GOPHER, EMAIL, ….
URLs ( Uniform Resource Locator): là m(cid:23)t d(cid:11)ng (cid:7)(cid:10)(cid:26)c s% d!ng r(cid:23)ng rãi c$a
URIs, (cid:7)(cid:10)(cid:26)c s% d!ng r#t ph. bi(cid:8)n trên web, là các (cid:7)(cid:19)a ch& c$a các tài nguyên. M"c dù
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 35 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
th(cid:10)(cid:4)ng (cid:7)(cid:10)(cid:26)c bi(cid:8)t (cid:7)(cid:8)n nh(cid:10) là các URLs, nh(cid:10)ng URIs c/ng có th(cid:28) (cid:7)(cid:10)(cid:26)c tham chi(cid:8)u (cid:7)(cid:8)n
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
các khái ni(cid:9)m trong semantic web. Ví d!, gi(cid:5) s% b(cid:11)n có m(cid:23)t quy(cid:28)n sách có tên là
“Machine Learning”, thì URI c$a nó s* nh(cid:10) sau:
http://www.cs.bris.ac.uk/home/pw2538/book/title#machinelearning
L(cid:10)u ý là m(cid:12)i th(cid:27) trên web (cid:7)(cid:31)u có m(cid:23)t URI duy nh#t.
Ki(cid:28)n trúc 2.2.2.
Web ng(cid:25) ngh a (cid:7)(cid:10)(cid:26)c xây d(cid:13)ng theo mô hình ki(cid:8)n trúc phân t(cid:2)ng g1m có 7
t(cid:2)ng, các t(cid:2)ng nh(cid:10) sau:
Hình 9: Ki(cid:28)n trúc t+ng c a Semantic web.
T(cid:2)ng Unicode + URI:
Nh0m b(cid:5)o (cid:7)(cid:5)m vi(cid:9)c s% d!ng t(cid:14)p ký t(cid:13) qu(cid:17)c t(cid:8) và cung c#p ph(cid:10)(cid:6)ng ti(cid:9)n (cid:7)(cid:28) (cid:7)(cid:19)nh
danh các (cid:7)(cid:17)i t(cid:10)(cid:26)ng trong Web ng(cid:25) ngh a.
T(cid:2)ng XML + NS + L(cid:10)(cid:26)c (cid:7)1 XML:
Cùng v(cid:20)i các (cid:7)(cid:19)nh ngh a v(cid:31) namespace và schema b(cid:5)o (cid:7)(cid:5)m r0ng ta có th(cid:28) tích
h(cid:26)p các (cid:7)(cid:19)nh ngh a web ng(cid:25) ngh a v(cid:20)i các chu5n d(cid:13)a trên XML khác.
T(cid:2)ng RDF + L(cid:10)(cid:26)c (cid:7)1 RDF:
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 36 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
Dùng siêu d(cid:25) li(cid:9)u mô t(cid:5) tài li(cid:9)u trên Web (cid:7)(cid:28) máy có th(cid:28) hi(cid:28)u (cid:7)(cid:10)(cid:26)c chúng.
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
T(cid:2)ng Ontology:
L(cid:10)(cid:26)c (cid:7)1 RDF cung c#p các công c! (cid:7)(cid:28) (cid:7)(cid:19)nh ngh a nh(cid:25)ng t(cid:30) v(cid:13)ng, c#u trúc và
các ràng bu(cid:23)c trong vi(cid:9)c mô t(cid:5) cho siêu d(cid:25) li(cid:9)u v(cid:31) các tài nguyên Web. Nh(cid:10)ng l(cid:10)(cid:26)c
(cid:7)1 RDF ch(cid:10)a th(cid:14)t s(cid:13) (cid:7)(cid:2)y (cid:7)$ cho vi(cid:9)c mô hình hoá và h(cid:15) tr(cid:26) suy lu(cid:14)n trên Semantic
Web. Ngôn ng(cid:25) Ontology OIL (cid:7)(cid:10)(cid:26)c (cid:7)(cid:31) ra là m(cid:23)t d(cid:11)ng m(cid:3) r(cid:23)ng c$a l(cid:10)(cid:26)c (cid:7)1 RDF. Nó
cho phép th(cid:28) hi(cid:9)n ng(cid:25) ngh a hình th(cid:27)c, giúp h(cid:15) tr(cid:26) suy di-n t(cid:13) (cid:7)(cid:23)ng.
T(cid:2)ng Logic:
T(cid:2)ng logic (cid:7)(cid:10)(cid:26)c xem nh(cid:10) là m(cid:23)t c(cid:6) s(cid:3) lu(cid:14)t trên Semantic Web. B(cid:5)n ch#t c$a c(cid:6)
s(cid:3) lu(cid:14)t này có d(cid:11)ng nh(cid:10) m(cid:23)t h(cid:9) chuyên gia. T(cid:2)ng này s* h(cid:15) tr(cid:26) các d(cid:19)ch v! nh(cid:10) : phân
lo(cid:11)i v(cid:18)n b(cid:5)n, rút trích d(cid:25) li(cid:9)u.
T(cid:2)ng Proof:
Trong khi t(cid:2)ng logic giúp h(cid:15) tr(cid:26) suy lu(cid:14)n d(cid:13)a vào c(cid:6) s(cid:3) lu(cid:14)t thì t(cid:2)ng Proof (cid:7)(cid:10)(cid:26)c
dùng (cid:7)(cid:28) ch(cid:27)ng minh các suy di-n c$a h(cid:9) th(cid:17)ng b0ng cách liên k(cid:8)t các d(cid:25) ki(cid:9)n.
T(cid:2)ng Trust:
Trong Web ng(cid:25) ngh a các thông tin (cid:7)(cid:10)(cid:26)c s% d!ng chung nh(cid:10) m(cid:23)t c(cid:6) s(cid:3) d(cid:25) li(cid:9)u
toàn c(cid:2)u, nên c(cid:2)n ph(cid:5)i có m(cid:23)t cái gì (cid:7)ó (cid:7)(cid:28) b(cid:5)o m(cid:14)t. (cid:1)ó là nguyên nhân c$a s(cid:13) ra (cid:7)(cid:4)i
c$a ch(cid:25) ký (cid:7)i(cid:9)n t%, nó giúp cho thông tin trên Web (cid:7)áng tin c(cid:14)y h(cid:6)n. Trust engine là
m(cid:23)t h(cid:9) th(cid:17)ng (cid:7)ang (cid:7)(cid:10)(cid:26)c xây d(cid:13)ng d(cid:13)a trên n(cid:31)n t(cid:5)ng c$a ch(cid:25) ký (cid:7)i(cid:9)n t%. Các k(cid:29) thu(cid:14)t
(cid:7)(cid:28) xây d(cid:13)ng chúng còn (cid:7)ang trong giai (cid:7)o(cid:11)n nghiên c(cid:27)u và th% nghi(cid:9)m.
Các thách th’c (cid:30)(cid:31)t ra cho Semantic web 2.2.3.
2.2.3.1. Thách th’c 1: Tính s5n có c a n(cid:25)i dung (The availability
of content)
N(cid:23)i dung c$a web ng(cid:25) ngh a là n(cid:23)i dung web (cid:7)(cid:10)(cid:26)c chú thích theo các ontology
(cid:7)"c bi(cid:9)t, các ontology này (cid:7)(cid:19)nh ngh a ng(cid:25) ngh a c$a các t(cid:30) ho"c các khái ni(cid:9)m xu#t
hi(cid:9)n trong cùng m(cid:23)t n(cid:23)i dung. M(cid:23)t s(cid:13) m(cid:3) r(cid:23)ng (cid:7)(cid:6)n gi(cid:5)n (cid:7)(cid:17)i v(cid:20)i HTML là (cid:7)(cid:10)(cid:26)c dùng
(cid:7)(cid:28) chú thích các trang web v(cid:20)i thông tin v(cid:31) ontology. Vi(cid:9)c t(cid:11)o n(cid:23)i dung semantic web
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 37 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
là m(cid:23)t thách th(cid:27)c l(cid:20)n, b(cid:3)i vì “c(cid:6) s(cid:3) h(cid:11) t(cid:2)ng” c$a semantic web v(cid:21)n còn (cid:7)ang (cid:7)(cid:10)(cid:26)c xây
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
d(cid:13)ng (ch(cid:10)a hoàn ch&nh – RDF, OIL, DAML+OIL,…), hi(cid:9)n t(cid:11)i có r#t ít n(cid:23)i dung web
ng(cid:25) ngh a có s6n.
2.2.3.2. Thách th’c 2: Các ontology s5n có, phát tri6n và ti(cid:28)n hoá
Các ontology là chìa khóa (cid:7)(cid:17)i v(cid:20)i semantic web b(cid:3)i vì chúng là nh(cid:25)ng b(cid:23)
chuyên ch(cid:3) ng(cid:25) ngh a (cid:7)(cid:10)(cid:26)c ch(cid:27)a trong semantic web, có ngh a là chúng cung c#p m(cid:23)t
t(cid:14)p t(cid:30) v(cid:13)ng và ng(cid:25) ngh a chú thích. Có 3 v#n (cid:7)(cid:31) chính c(cid:2)n (cid:7)(cid:10)(cid:26)c gi(cid:5)i quy(cid:8)t (cid:7)(cid:17)i v(cid:20)i
thách th(cid:27)c này, hai v#n (cid:7)(cid:31) (cid:7)(cid:2)u có liên quan (cid:7)(cid:8)n các v#n (cid:7)(cid:31) v(cid:31) vi(cid:9)c phát tri(cid:28)n các
ontology truy(cid:31)n th(cid:17)ng mà cho (cid:7)(cid:8)n t(cid:14)n bây gi(cid:4) các v#n (cid:7)(cid:31) này v(cid:21)n ch(cid:10)a (cid:7)(cid:10)(cid:26)c gi(cid:5)i
quy(cid:8)t, và v#n (cid:7)(cid:31) th(cid:27) ba còn l(cid:11)i có liên quan nhi(cid:31)u (cid:7)(cid:8)n khung c(cid:5)nh m(cid:20)i c$a semantic
web:
V#n (cid:7)(cid:31) th(cid:27) nh#t là vi(cid:9)c xây d(cid:13)ng các ontology h(cid:11)t nhân (kernel) (cid:7)(cid:28) (cid:7)(cid:10)(cid:26)c s%
d!ng b(cid:3)i t#t c(cid:5) các domain. Nh(cid:25)ng kh(cid:3)i (cid:7)(cid:2)u t1n t(cid:11)i (cid:7)(cid:17)i v(cid:20)i vi(cid:9)c xây d(cid:13)ng m(cid:23)t s(cid:17)
kernel ontology này là chúng ph(cid:5)i (cid:7)(cid:10)(cid:26)c (cid:27)ng d!ng trong nh(cid:25)ng domain khác nhau.
V#n (cid:7)(cid:31) th(cid:27) hai là cung c#p s(cid:13) h(cid:15) tr(cid:26) mang tính ch#t gi(cid:5)i pháp và công ngh(cid:9) (cid:7)(cid:17)i
v(cid:20)i h(cid:2)u h(cid:8)t các ho(cid:11)t (cid:7)(cid:23)ng c$a ti(cid:4)n trình phát tri(cid:10)n ontology, bao g1m:
a. S(cid:13) thu th(cid:14)p tri th(cid:27)c, mô hình khái ni(cid:9)m và mã hoá ontology trong các
ngôn ng(cid:25) semantic web (RDFS, OIL, DAML+OIL), và các ngôn ng(cid:25)
m(cid:20)i – các ngôn ng(cid:25) m(cid:20)i này có th(cid:28) s* (cid:7)(cid:10)(cid:26)c (cid:7)(cid:10)a ra trong nh(cid:25)ng n(cid:18)m s(cid:16)p
t(cid:20)i [Maedche, Staab – 2001] .
b. S(cid:13) s(cid:16)p x(cid:8)p và ánh x(cid:11) ontology, s(cid:13) tích h(cid:26)p ontology, các công c!
chuy(cid:28)n (cid:7).i ontology, và các công c! xây d(cid:13)ng ontology, n(cid:8)u các
ontology t1n t(cid:11)i s(cid:16)p (cid:7)(cid:10)(cid:26)c s% d!ng l(cid:11)i [Fensel et al, 2001], [Noy, Musen
2000].
c. Các công c! ki(cid:28)m tra tính b(cid:31)n v(cid:25)ng cho các ontology (cid:7)(cid:10)(cid:26)c s% d!ng l(cid:11)i
[Gomez-Perez 1996].
V#n (cid:7)(cid:31) th(cid:27) ba là s(cid:13) ti(cid:8)n hoá c$a các ontology và m(cid:17)i quan h(cid:9) c$a chúng (cid:7)(cid:17)i v(cid:20)i
các d(cid:25) li(cid:9)u (cid:7)ã (cid:7)(cid:10)(cid:26)c chú thích. Các công c! qu(cid:5)n lý c#u hình là c(cid:2)n thi(cid:8)t cho s(cid:13) (cid:7)i(cid:31)u
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 38 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
khi(cid:28)n các phiên b(cid:5)n c$a m(cid:15)i ontology c/ng nh(cid:10) s(cid:13) ph! thu(cid:23)c l(cid:21)n nhau gi(cid:25)a chúng và
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
các chú thích. T#t c(cid:5) các v#n (cid:7)(cid:31) này có th(cid:28) là không quan tr(cid:12)ng l(cid:16)m, nh(cid:10)ng c(cid:2)n thi(cid:8)t
ph(cid:5)i gi(cid:5)i quy(cid:8)t tr(cid:10)(cid:20)c khi m(cid:23)t semantic web th(cid:13)c s(cid:13) ra (cid:7)(cid:4)i.
2.2.3.3. Thách th’c 3: Scalability of semantic web content
M(cid:23)t khi chúng ta (cid:7)ã có n(cid:23)i dung c$a semantic web, chúng ta s* ph(cid:5)i quan tâm
(cid:7)(cid:8)n vi(cid:9)c ph(cid:5)i qu(cid:5)n lý nó nh(cid:10) th(cid:8) nào, có ngh a là cách t. ch(cid:27)c nó nh(cid:10) th(cid:8) nào, n(cid:6)i l(cid:10)u
tr(cid:25) nó và cách (cid:7)(cid:28) tìm (cid:7)(cid:10)(cid:26)c n(cid:23)i dung (cid:7)úng (cid:7)(cid:16)n. Có 2 v#n (cid:7)(cid:31) chính trong thách th(cid:27)c
này:
a. V#n (cid:7)(cid:31) th(cid:27) nh#t có liên quan (cid:7)(cid:8)n vi(cid:9)c l(cid:10)u tr(cid:25) và t. ch(cid:27)c c$a các trang
web ng(cid:25) ngh a (semantic web pages). Semantic web “c(cid:6) s(cid:3)” bao g1m
các trang (cid:7)(cid:10)(cid:26)c chú thích d(cid:13)a trên ontology, c#u trúc liên k(cid:8)t c$a các
trang này ph(cid:5)n ánh c#u trúc c$a WWW, có ngh a là các trang liên k(cid:8)t
v(cid:20)i nh(cid:25)ng trang khác thông qua các hyperlink. Theo cách liên k(cid:8)t này
(hyperlink) thì không khai thác (cid:7)(cid:10)(cid:26)c (cid:7)(cid:2)y (cid:7)$ ng(cid:25) ngh a c$a các trang
web ng(cid:25) ngh a. Chi(cid:8)n l(cid:10)(cid:26)c semantic indexes (cid:7)(cid:10)(cid:26)c (cid:7)(cid:31) xu#t (cid:7)(cid:28) gom
nhóm n(cid:23)i dung c$a semantic web d(cid:13)a trên các ch$ (cid:7)(cid:31) c! th(cid:28). Semantic
indexes s* (cid:7)(cid:10)(cid:26)c phát sinh t(cid:13) (cid:7)(cid:23)ng b0ng cách s% d!ng thông tin c$a
ontology và các tài li(cid:9)u (cid:7)ã (cid:7)(cid:10)(cid:26)c chú thích.
b. V#n (cid:7)(cid:31) th(cid:27) hai có liên quan (cid:7)(cid:8)n vi(cid:9)c d- dàng tìm ki(cid:8)m thông tin trên
semantic web, nói cách khác là có liên quan (cid:7)(cid:8)n vi(cid:9)c ph(cid:17)i h(cid:26)p gi(cid:25)a các
semantic indexes.
2.2.3.4. Thách th’c 4: (cid:12)a ngôn ng%
Vi(cid:9)c h(cid:12)c d(cid:13)a trên s(cid:13) phân tán c$a ngôn ng(cid:25) thông qua n(cid:23)i dung c$a WWW ch&
ra r0ng th(cid:14)m chí n(cid:8)u ti(cid:8)ng Anh là ngôn ng(cid:25) (cid:10)u th(cid:8) h(cid:6)n (cid:7)(cid:17)i v(cid:20)i các tài li(cid:9)u, m(cid:23)t s(cid:17) tài
nguyên (cid:7)(cid:10)(cid:26)c vi(cid:8)t b0ng ngôn ng(cid:25) khác c/ng r#t quan tr(cid:12)ng: Ti(cid:8)ng Anh 68,4%; Ti(cid:8)ng
Nh(cid:14)t 5,9%; Ti(cid:8)ng (cid:1)(cid:27)c 5,8%; Ti(cid:8)ng Trung Qu(cid:17)c 3,9%; Ti(cid:8)ng Pháp 3,0%; Ti(cid:8)ng Tây
Ban Nha 2,4%; Ti(cid:8)ng Nga 1,9%; Ti(cid:8)ng Italia 1,6%; Ti(cid:8)ng B1 (cid:1)ào Nha 1,4%; Ti(cid:8)ng
Hàn 1,3%; Các ngôn ng(cid:25) khác 4,6% [www.vilaweb.com]. Tính (cid:7)a d(cid:11)ng c$a ngôn ng(cid:25)
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 39 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
còn quan tr(cid:12)ng h(cid:6)n nhi(cid:31)u (cid:7)(cid:17)i v(cid:20)i các tài nguyên WWW. (cid:1)a ngôn ng(cid:25) (cid:7)óng vai trò
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
ngày càng l(cid:20)n (cid:7)(cid:17)i v(cid:20)i các c#p (cid:7)(cid:23) sau: (cid:3) c#p (cid:7)(cid:23) ontology, (cid:3) c#p (cid:7)(cid:23) chú thích, và (cid:3) c#p
(cid:7)(cid:23) giao di(cid:9)n ng(cid:10)(cid:4)i dùng.
( c#p (cid:7)(cid:23) ontology, nh(cid:25)ng ng(cid:10)(cid:4)i thi(cid:8)t k(cid:8) ontology có th(cid:28) mu(cid:17)n s% d!ng ngôn
ng(cid:25) (cid:7)(cid:19)a ph(cid:10)(cid:6)ng c$a mình cho vi(cid:9)c phát tri(cid:28)n ontology mà trong (cid:7)ó các chú thích s*
(cid:7)(cid:10)(cid:26)c g(cid:16)n vào. B(cid:3)i vì không ph(cid:5)i t#t c(cid:5) ng(cid:10)(cid:4)i s% d!ng (cid:7)(cid:31)u là nh(cid:25)ng ng(cid:10)(cid:4)i xây d(cid:13)ng
ontology, nên c#p (cid:7)(cid:23) này có (cid:7)(cid:23) (cid:10)u tiên th#p nh#t. S(cid:13) t1n t(cid:11)i cu(cid:5) (cid:7)a ngôn ng(cid:25) và các tài
nguyên ngôn ng(cid:25) h(cid:12)c, nh(cid:10) là WordNet [wordnet], EuroWordnet [eurowordnet],…có
th(cid:28) (cid:7)(cid:10)(cid:26)c xem xét t& m& (cid:7)(cid:28) h(cid:15) tr(cid:26) v#n (cid:7)(cid:31) (cid:7)a ngôn ng(cid:25) (cid:3) c#p (cid:7)(cid:23) này.
( c#p (cid:7)(cid:23) chú thích (annotation), chú thích c$a n(cid:23)i dung có th(cid:28) (cid:7)(cid:10)(cid:26)c th(cid:13)c hi(cid:9)n
trong nhi(cid:31)u ngôn ng(cid:25) khác nhau. B(cid:3)i vì nhi(cid:31)u ng(cid:10)(cid:4)i dùng ((cid:7)"c bi(cid:9)t là các nhà cung
c#p n(cid:23)i dung) s* thích chú thích n(cid:23)i dung h(cid:6)n là phát tri(cid:28)n các ontology, s(cid:13) h(cid:15) tr(cid:26) phù
h(cid:26)p là c(cid:2)n thi(cid:8)t ph(cid:5)i (cid:7)(cid:28) cho các nhà cung c#p ( n(cid:23)i dung ) chú thích n(cid:23)i dung b0ng
ngôn ng(cid:25) (cid:7)(cid:19)a ph(cid:10)(cid:6)ng c$a h(cid:12). (cid:1)(cid:28) có th(cid:28) phát sinh n(cid:23)i dung web ng(cid:25) ngh a b0ng t#t c(cid:5)
kh(cid:5) n(cid:18)ng, chúng ta không th(cid:28) yêu c(cid:2)u chú thích n(cid:23)i dung t(cid:30) ti(cid:8)ng Pháp sang ti(cid:8)ng (cid:1)(cid:27)c
(cid:7)(cid:10)(cid:26)c và ng(cid:10)(cid:26)c l(cid:11)i.
Cu(cid:17)i cùng (cid:3) c#p (cid:7)(cid:23) giao di(cid:9)n ng(cid:10)(cid:4)i dùng, hàng t& ng(cid:10)(cid:4)i mu(cid:17)n truy xu#t vào n(cid:23)i
dung thích h(cid:26)p b0ng ngôn ng(cid:25) (cid:7)(cid:19)a ph(cid:10)(cid:6)ng c$a h(cid:12) b#t ch#p ngôn ng(cid:25) ngu1n – ngôn
ng(cid:25) mà trong (cid:7)ó các chú thích (cid:7)(cid:10)(cid:26)c trình bày. M"c dù hi(cid:9)n t(cid:11)i, (cid:7)a s(cid:17) n(cid:23)i dung (cid:7)(cid:31)u
(cid:7)(cid:10)(cid:26)c vi(cid:8)t b0ng ti(cid:8)ng Anh, chúng ta hy v(cid:12)ng r0ng s* có nhi(cid:31)u n(cid:23)i dung h(cid:6)n (cid:7)(cid:10)(cid:26)c vi(cid:8)t
b0ng nhi(cid:31)u ngôn ng(cid:25) khác. B#t k3 h(cid:10)(cid:20)ng ti(cid:8)p c(cid:14)n nào c$a semantic web c/ng nên bao
g1m các ti(cid:9)n ích truy xu#t thông tin trong nhi(cid:31)u ngôn ng(cid:25). Các công ngh(cid:9) qu(cid:17)c t(cid:8) hoá
và (cid:7)(cid:19)a ph(cid:10)(cid:6)ng hoá nên (cid:7)(cid:10)(cid:26)c xem xét c5n th(cid:14)n (cid:7)(cid:17)i v(cid:20)i vi(cid:9)c truy xu#t thông tin cá nhân
d(cid:13)a trên ngôn ng(cid:25) (cid:7)(cid:19)a ph(cid:10)(cid:6)ng c$a ng(cid:10)(cid:4)i dùng.
2.2.3.5. Thách th’c 5: Visualization – s# m(cid:14)7ng t(cid:14)(cid:29)ng
V(cid:20)i s(cid:13) gia t(cid:18)ng thông tin v(cid:10)(cid:26)t b(cid:14)c, s(cid:13) m(cid:10)(cid:4)ng t(cid:10)(cid:26)ng (hình dung) c$a tr(cid:13)c giác
v(cid:31) thông tin s* tr(cid:3) nên r#t quan tr(cid:12)ng, b(cid:3)i vì ng(cid:10)(cid:4)i dùng s* yêu c(cid:2)u s(cid:13) d- dàng (cid:7)(cid:28)
nh(cid:14)n bi(cid:8)t s(cid:13) phù h(cid:26)p c$a n(cid:23)i dung cho m!c (cid:7)ích c$a h(cid:12) ngày càng gia t(cid:18)ng. Thêm vào
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 40 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
(cid:7)ó vi(cid:9)c s% d!ng semantic indexes và các routers cho vi(cid:9)c l(cid:10)u tr(cid:25), t. ch(cid:27)c và tìm ki(cid:8)m
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
thông tin, v(cid:31) sau này s* yêu c(cid:2)u m(cid:23)t b(cid:10)(cid:20)c quan tr(cid:12)ng trong s(cid:13) m(cid:10)(cid:4)ng t(cid:10)(cid:26)ng. Các
công ngh(cid:9) nên cho phép (cid:7)(cid:17)i v(cid:20)i các công ngh(cid:9) 3 chi(cid:31)u và s(cid:13) m(cid:10)(cid:4)ng t(cid:10)(cid:26)ng m(cid:20)i (cid:7)(cid:28)
m(cid:10)(cid:4)ng t(cid:10)(cid:26)ng ra n(cid:23)i dung c$a semantic web trong b#t k3 m(cid:23)t ngôn ng(cid:25) web hi(cid:9)n t(cid:11)i
nào (RDFS, OIL, DAML + OIL). Thông qua công ngh(cid:9) hi(cid:28)n th(cid:19) (cid:7)1 ho(cid:11) th(cid:4)i gian th(cid:13)c
3D tho(cid:5) (cid:7)áng và vi(cid:9)c khai thác các m(cid:17)i quan h(cid:9) ng(cid:25) ngh a, m(cid:23)t giao di(cid:9)n ba chi(cid:31)u
m(cid:20)i có th(cid:28) (cid:7)(cid:10)(cid:26)c phát sinh m(cid:23)t cách t(cid:13) (cid:7)(cid:23)ng. Theo cách này, nhi(cid:31)u thông tin h(cid:6)n có
th(cid:28) (cid:7)(cid:10)(cid:26)c trình bày trong m(cid:23)t không gian nh2 h(cid:6)n, và ng(cid:10)(cid:4)i dùng có th(cid:28) t(cid:10)(cid:6)ng tác v(cid:20)i
các site m(cid:23)t cách th(cid:13)c t(cid:8) và ti(cid:9)n l(cid:26)i [Van Harmelen et al 2001].
2.2.3.6. Thách th’c 6: S# chu,n hoá các ngôn ng% semantic web
Semantic web là m(cid:23)t l nh v(cid:13)c (cid:7)ang n.i b(cid:14)t và WWW Consortium s* (cid:7)(cid:10)a ra các
gi(cid:20)i thi(cid:9)u v(cid:31) các ngôn ng(cid:25) và công ngh(cid:9) s* (cid:7)(cid:10)(cid:26)c s% d!ng. (cid:1)(cid:28) v(cid:10)(cid:6)n lên (cid:7)(cid:8)n m(cid:27)c ngh(cid:9)
thu(cid:14)t trong semantic web, và các công c! ph(cid:2)n l(cid:20)n ph! thu(cid:23)c vào ngôn ng(cid:25) semantic
web mà chúng (cid:7)(cid:10)(cid:26)c h(cid:15) tr(cid:26), thì nhu c(cid:2)u chu5n hoá ngôn ng(cid:25) semantic web là m(cid:23)t (cid:7)òi
h2i c(cid:2)n thi(cid:8)t.
So sánh web và web ng% ngh!a 2.2.4.
(cid:1)i(cid:28)m gi(cid:17)ng nhau gi(cid:25)a Web và Web ng(cid:25) ngh a: c(cid:5) 2 (cid:7)(cid:31)u dùng nh(cid:25)ng liên k(cid:8)t
(link) URI, nh(cid:10)ng Web ng(cid:25) ngh a s% d!ng các link này r#t nhi(cid:31)u, vi(cid:9)c s% d!ng link
làm gia t(cid:18)ng tính chính xác c$a thông tin.
S(cid:13) khác nhau c(cid:6) b(cid:5)n gi(cid:25)a Web và Web ng(cid:25) ngh a:
Web Web ng% ngh!a
Web là m(cid:23)t không gian thông tin ch(cid:27)a Web ng(cid:25) ngh a là m(cid:23)t không gian
(cid:7)(cid:13)ng thông tin ch& h(cid:10)(cid:20)ng vào vi(cid:9)c bi(cid:28)u thông tin trong (cid:7)ó thông tin (cid:7)(cid:10)(cid:26)c bi(cid:28)u
di-n trong m(cid:23)t ngôn ng(cid:25) t(cid:13) nhiên mà di-n thông qua m(cid:23)t ngôn ng(cid:25) mà máy
ch& có ng(cid:10)(cid:4)i m(cid:20)i hi(cid:28)u (cid:7)(cid:10)(cid:26)c. và ng(cid:10)(cid:4)i (cid:7)(cid:31)u có th(cid:28) hi(cid:28)u (cid:7)(cid:10)(cid:26)c.
Web là m(cid:23)t t(cid:14)p h(cid:26)p thông tin liên k(cid:8)t Web ng(cid:25) ngh a là m(cid:23)t d(cid:25) li(cid:9)u liên k(cid:8)t
v(cid:20)i nhau m(cid:23)t cách không hình th(cid:27)c. v(cid:20)i nhau m(cid:23)t cách ng(cid:25) ngh a và hình
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 41 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
th(cid:27)c.
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
Các khái ni&m liên quan 2.2.5.
2.2.5.1. Metadata
Metadata là thông tin có c#u trúc mô t(cid:5), gi(cid:5)i thích, (cid:7)(cid:19)nh v(cid:19) ho"c m"t khác
làm cho d- dàng truy v#n, s% d!ng, qu(cid:5)n lý m(cid:23)t tài nguyên thông tin. Metadata th(cid:10)(cid:4)ng
(cid:7)(cid:10)(cid:26)c g(cid:12)i là d(cid:25) li(cid:9)u v(cid:31) d(cid:25) li(cid:9)u (t(cid:30) (cid:7)i(cid:28)n d(cid:25) li(cid:9)u), ho"c là thông tin v(cid:31) thông tin.
Metadata là thông tin v(cid:31) thông tin, metadata (cid:7)(cid:10)(cid:26)c s% d!ng r(cid:23)ng rãi trong
th(cid:8) gi(cid:20)i th(cid:13)c cho m!c (cid:7)ích tìm ki(cid:8)m. Ví d!, b(cid:11)n mu(cid:17)n m(cid:10)(cid:26)n m(cid:23)t vài quy(cid:28)n sách (cid:3)
m(cid:23)t th(cid:10) vi(cid:9)n nào (cid:7)ó thông qua máy tính. Th(cid:10)(cid:4)ng thì th(cid:10) vi(cid:9)n s* cung c#p m(cid:23)t h(cid:9)
th(cid:17)ng tra c(cid:27)u, h(cid:9) th(cid:17)ng này cho phép b(cid:11)n li(cid:9)t kê sách theo tên tác gi(cid:5) (author), theo
t(cid:13)a sách (title), theo ch$ (cid:7)(cid:31) (subject), v.v…. Danh sách li(cid:9)t kê này ch(cid:27)a nhi(cid:31)u thông
tin quan tr(cid:12)ng nh(cid:10): tên tác gi(cid:5), t(cid:13)a sách, ISBN, và thông tin quan tr(cid:12)ng nh#t là n(cid:6)i c#t
gi(cid:25) sách. B(cid:11)n c(cid:2)n vài thông tin (trong tr(cid:10)(cid:4)ng h(cid:26)p này là n(cid:6)i c#t gi(cid:25) sách) mà b(cid:11)n
mu(cid:17)n bi(cid:8)t và b(cid:11)n s% d!ng metadata (trong tr(cid:10)(cid:4)ng h(cid:26)p này là: tên tác gi(cid:5), t(cid:13)a sách, và
ch$ (cid:7)(cid:31)) (cid:7)(cid:28) l#y (cid:7)(cid:10)(cid:26)c sách.
Có 3 ki(cid:28)u metadata:
a. Descriptive metadata: mô t(cid:5) m(cid:23)t tài nguyên cho nh(cid:25)ng m!c (cid:7)ích nh(cid:10) là
khám phá ho"c là nh(cid:14)n di(cid:9)n. Nó có th(cid:28) bao g1m các ph(cid:2)n t% nh(cid:10) là:
titles, astract, author, và keywords.
b. Structural metadata: ví d!: cho bi(cid:8)t các (cid:7)(cid:17)i t(cid:10)(cid:26)ng ph(cid:27)c h(cid:26)p liên k(cid:8)t v(cid:20)i
nhau nh(cid:10) th(cid:8) nào, các trang (pages) (cid:7)(cid:10)(cid:26)c s(cid:16)p x(cid:8)p thành các ch(cid:10)(cid:6)ng nh(cid:10)
th(cid:8) nào.
c. Administrative metadata: cung c#p thông tin giúp cho vi(cid:9)c qu(cid:5)n lý m(cid:23)t
tài nguyên, nh(cid:10) là nó (cid:7)(cid:10)(cid:26)c t(cid:11)o ra khi nào và nh(cid:10) th(cid:8) nào, ki(cid:28)u file, và
các thông tin k(cid:29) thu(cid:14)t khác, và nh(cid:25)ng ai có th(cid:28) truy c(cid:14)p (cid:7)(cid:8)n nó.
2.2.5.2. Namespace
Chúng ta có th(cid:28) m(cid:3) r(cid:23)ng t(cid:14)p t(cid:30) v(cid:13)ng c$a chúng ta thông qua các
namespace – là các nhóm c$a tên các ph(cid:2)n t% và tên các thu(cid:23)c tính. Gi(cid:5) s%, n(cid:8)u b(cid:11)n
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng
- 42 -
0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh
mu(cid:17)n g(cid:23)p (include) m(cid:23)t ký hi(cid:9)u (symbol) (cid:7)(cid:10)(cid:26)c mã hoá trong m(cid:23)t ngôn ng(cid:25) (cid:7)ánh d#u
(cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc
nào (cid:7)ó trong m(cid:23)t tài li(cid:9)u XML, thì b(cid:11)n có th(cid:28) khai báo m(cid:23)t namespace ( không gian
tên) mà symbol (cid:7)ó thu(cid:23)c v(cid:31). Thêm vào (cid:7)ó, chúng ta có th(cid:28) tránh (cid:7)(cid:10)(cid:26)c tình hu(cid:17)ng hai
(cid:7)(cid:17)i t(cid:10)(cid:26)ng XML trong các không gian tên khác nhau v(cid:20)i cùng m(cid:23)t tên mà có ý ngh a
khác nhau thông qua các (cid:7)"c tr(cid:10)ng c$a các namespace. Gi(cid:5)i pháp là gán m(cid:23)t ti(cid:31)n t(cid:17)
nh(cid:14)n bi(cid:8)t namespace mà m(cid:15)i ph(cid:2)n t% ho"c các thu(cid:23)c tính thu(cid:23)c v(cid:31). Cú pháp c$a
namespace nh(cid:10) sau:
ns-prefix:local-name
Trong (cid:7)ó ns-prefix là tên c$a namespace, và local-name là tên c$a ph(cid:2)n
t% ho"c thu(cid:23)c tính.
Ví d! v(cid:31) namespace:
Tài li(cid:9)u XML d(cid:10)(cid:20)i (cid:7)ây là m(cid:23)t th(cid:10) vi(cid:9)n sách. Chúng ta b(cid:16)t (cid:7)(cid:2)u b0ng ph(cid:2)n
t% g(cid:17)c có tên th, là
sách
Earthquakes for lunch
Không gian tên c(cid:24)c b(cid:25) (local namespace):
Chúng ta có th(cid:28) (cid:7)"t thu(cid:23)c tính xmlns (cid:3) ph(cid:2)n t% g(cid:17)c hay (cid:3) b#t k3 th, nào khác.
Khi thu(cid:23)c tính này không n0m trong th, g(cid:17)c thì ta g(cid:12)i (cid:7)ó là không gian tên c!c b(cid:23).
Ví d!: Xem (cid:7)o(cid:11)n xml d(cid:10)(cid:20)i (cid:7)ây:
0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 43 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh xmlns: minhkhai= http://www.minhkhai.com.vn/spec> (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc Earthquakes for lunch. xmlns:amazon=http://www.amazon.com.lib> Earthquakes for lunch. Trong ví d! này thì namespace: xmlns:amazon=http://www.amazon.com.lib (cid:7)(cid:10)(cid:26)c g(cid:12)i là không gian tên c!c b(cid:23). Ontology 2.2.6. Thu(cid:14)t ng(cid:25) “ontology” (cid:7)(cid:10)(cid:26)c vay m(cid:10)(cid:26)n t(cid:30) tri(cid:8)t h(cid:12)c. Ý ngh a (cid:7)(cid:2)u tiên c$a nó là “the branch of metaphysics that deals with the nature of being” [The American Heritage® Dictionary of the English Language: Fourth Edition (2000)]. Ontology là m(cid:23)t công ngh(cid:9) quan tr(cid:12)ng mang tính ch#t x(cid:10)(cid:6)ng s(cid:17)ng, vì nó cung c#p m(cid:23)t (cid:7)"c tính quan tr(cid:12)ng: ontology giao ti(cid:8)p (cid:7)(cid:10)(cid:26)c gi(cid:25)a ng(cid:25) ngh a hình th(cid:27)c mà máy tính có th(cid:28) hi(cid:28)u (cid:7)(cid:10)(cid:26)c v(cid:20)i ng(cid:25) ngh a c$a th(cid:8) gi(cid:20)i th(cid:13)c mà con ng(cid:10)(cid:4)i có th(cid:28) hi(cid:28)u (cid:7)(cid:10)(cid:26)c. Nh(cid:25)ng Ontology (cid:7)(cid:10)(cid:26)c phát tri(cid:28)n trong trí tu(cid:9) nhân t(cid:11)o (cid:7)(cid:28) tri th(cid:27)c d- dàng chia s, và s% d!ng l(cid:11)i. K(cid:28) t(cid:30) (cid:7)(cid:2)u th(cid:14)p niên 90 c$a th(cid:8) k4 XX, Ontology (cid:7)ã tr(cid:3) thành m(cid:23)t (cid:7)(cid:31) tài nghiên c(cid:27)u ph. bi(cid:8)n (cid:7)(cid:17)i v(cid:20)i các t. ch(cid:27)c nghiên c(cid:27)u trí tu(cid:9) nhân t(cid:11)o, bao g1m nh(cid:25)ng k(cid:29) s(cid:10) v(cid:31) tri th(cid:27)c (Knowledge), x% lý ngôn ng(cid:25) t(cid:13) nhiên và trình bày tri th(cid:27)c. Ontology không ch& làm cho tri th(cid:27)c có th(cid:28) s% d!ng l(cid:11)i d- dàng h(cid:6)n, nó còn là n(cid:31)n t(cid:5)ng c$a vi(cid:9)c t(cid:11)o ra các chu5n b(cid:3)i vì nó làm rõ các khái ni(cid:9)m bên c(cid:11)nh m(cid:23)t thu(cid:14)t 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 44 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh ng(cid:25) ho"c m(cid:23)t mô hình. Yêu c(cid:2)u trên th(cid:13)c t(cid:8) không ph(cid:5)i ch& dành cho m(cid:23)t khái ni(cid:9)m (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc duy nh#t, mà là (cid:7)(cid:17)i v(cid:20)i m(cid:23)t s(cid:13) t(cid:10)(cid:6)ng tác m(cid:6) h1 gi(cid:25)a các khái ni(cid:9)m ph(cid:27)c t(cid:11)p và chi ti(cid:8)t ( có th(cid:28) (cid:7)(cid:10)(cid:26)c trình bày trong nhi(cid:31)u ngôn ng(cid:25) khác nhau). G(cid:2)n (cid:7)ây, khái ni(cid:9)m Ontology (cid:7)ã tr(cid:3) nên ph. bi(cid:8)n h(cid:6)n nhi(cid:31)u trong các l nh v(cid:13)c nh(cid:10) s(cid:13) tích h(cid:26)p thông minh, nh(cid:25)ng h(cid:9) th(cid:17)ng thông tin h(cid:26)p tác, ph!c h1i thông tin, giao d(cid:19)ch th(cid:10)(cid:6)ng m(cid:11)i (cid:7)i(cid:9)n t%, và qu(cid:5)n lý tri th(cid:27)c. M!c (cid:7)ích c$a Ontology là h(cid:10)(cid:20)ng (cid:7)(cid:8)n tri th(cid:27)c mi(cid:31)n, nên s(cid:13) phát tri(cid:28)n c$a nó th(cid:10)(cid:4)ng là m(cid:23)t quá trình x% lý kéo theo nhi(cid:31)u y(cid:8)u t(cid:17) khác. T(cid:30) lúc ra (cid:7)(cid:4)i (cid:7)(cid:8)n nay, Ontology (cid:7)ã có r#t nhi(cid:31)u (cid:7)(cid:19)nh ngh a. Tuy nhiên, (cid:7)"c (cid:7)i(cid:28)m c(cid:17)t l(cid:15)i c$a Ontology v(cid:21)n là: “M(cid:23)t ontology là m(cid:23)t s(cid:13) ch& (cid:7)(cid:19)nh t(cid:11)(cid:6)ng minh, hình th(cid:12)c và chia s(cid:9) v(cid:31) m(cid:23)t khái ni(cid:1)m dùng chung”. Trong (cid:7)ó: (cid:2) M(cid:23)t khái ni(cid:1)m tham chi(cid:8)u (cid:7)(cid:8)n m(cid:23)t mô hình tr(cid:30)u t(cid:10)(cid:26)ng c$a m(cid:23)t vài hi(cid:9)n t(cid:10)(cid:26)ng nào (cid:7)ó trong th(cid:8) gi(cid:20)i th(cid:13)c mà xác (cid:7)(cid:19)nh nh(cid:25)ng khái ni(cid:9)m có liên quan v(cid:31) hi(cid:9)n t(cid:10)(cid:26)ng (cid:7)ó. (cid:2) T(cid:11)(cid:6)ng minh là nh(cid:25)ng khái ni(cid:9)m và nh(cid:25)ng ràng bu(cid:23)c trên nó (cid:7)(cid:10)(cid:26)c s% d!ng m(cid:23)t cách rõ ràng. (cid:2) Hình th(cid:12)c tham chi(cid:8)u (cid:7)(cid:8)n công vi(cid:9)c mà ontology ph(cid:5)i th(cid:13)c hi(cid:9)n (cid:7)(cid:28) máy tính có th(cid:28) hi(cid:28)u (cid:7)(cid:10)(cid:26)c. (cid:2) Chia s(cid:9) ph(cid:5)n ánh r0ng m(cid:23)t ontology gi(cid:25) tri th(cid:27)c (cid:7)1ng nh#t, ngh a là nó không b(cid:19) h(cid:11)n ch(cid:8) b(cid:3)i m(cid:23)t cá nhân hay m(cid:23)t nhóm riêng l, nào. Hi(cid:9)n nay có nhi(cid:31)u ontology l(cid:20)n nh(cid:10): CYC, WordNet, …. 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 45 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh Ví d! v(cid:31) ontology: (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc Hình 10: M(cid:25)t Ontology (cid:30)(cid:15)n gi(cid:19)n Rdf 2.2.7. 2.2.7.1 Khái ni&m : RDF là t(cid:30) vi(cid:8)t t(cid:16)t c$a Resource Description Framework. RDF (cid:7)(cid:10)(cid:26)c (cid:7)(cid:31) c% b(cid:3)i W3C cho m(cid:23)t mô hình và ngôn ng(cid:25) siêu d(cid:25) li(cid:9)u (metadata) chu5n. RDF là m(cid:23)t b(cid:23) khung cho vi(cid:9)c mô t(cid:5) các tài nguyên trên web. RDF cung c#p mô hình d(cid:25) li(cid:9)u và cú pháp (cid:7)(cid:28) các ph(cid:2)n (cid:7)(cid:23)c l(cid:14)p nhau có th(cid:28) chuy(cid:28)n (cid:7).i cho nhau và s% d!ng (cid:7)(cid:10)(cid:26)c RDF. C(u trúc : 2.2.7.2 RDF là khung s(cid:10)(cid:4)n (framework) cho vi(cid:9)c x% lý metadata, và nó mô t(cid:5) các m(cid:17)i quan h(cid:9) gi(cid:25)a các tài nguyên thông qua các thu(cid:23)c tính và các giá tr(cid:19). RDF (cid:7)(cid:10)(cid:26)c xây 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 46 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh d(cid:13)ng d(cid:13)a trên các lu(cid:14)t nh(cid:10) sau: (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc Resource: M(cid:12)i th(cid:27) (cid:7)(cid:10)(cid:26)c mô t(cid:5) b0ng bi(cid:28)u th(cid:27)c RDF (cid:7)(cid:10)(cid:26)c g(cid:12)i là m(cid:23)t resource ( tài nguyên). M(cid:15)i tài nguyên có m(cid:23)t URI và nó có th(cid:28) là toàn b(cid:23) trang web ho"c là m(cid:23)t ph(cid:2)n c$a trang web. Property: “Property là m(cid:23)t khía c(cid:11)nh, (cid:7)"c tr(cid:10)ng, thu(cid:23)c tính ho"c quan h(cid:9) riêng bi(cid:9)t (cid:7)(cid:10)(cid:26)c dùng (cid:7)(cid:28) mô t(cid:5) m(cid:23)t tài nguyên” – trích trong W3C, Resource Description Framework (RDF) Model and Syntax Specification. Chú ý là m(cid:23)t property c/ng có th(cid:28) là m(cid:23)t resource b(cid:3)i vì nó có nh(cid:25)ng tính ch#t riêng c$a nó. Statements: M(cid:23)t statements (cid:7)(cid:10)(cid:26)c dùng (cid:7)(cid:28) k(cid:8)t h(cid:26)p m(cid:23)t resource, m(cid:23)t property và m(cid:23)t value c$a nó. Ba ph(cid:2)n riêng bi(cid:9)t này (cid:7)(cid:10)(cid:26)c bi(cid:8)t nh(cid:10) là “subject”, “predicate”, và “object”. Ví d!, “The Author of http://www.cs.bris.ac.uk/home/pw2538/index.html is Peng Wang” là m(cid:23)t statement. Chú ý r0ng value c$a câu này có th(cid:28) là m(cid:23)t chu(cid:15)i ký t(cid:13) mà c/ng có th(cid:28) là m(cid:23)t resource. Ví d(cid:24) v(cid:22) RDF: M(cid:23)t statement ( phát bi(cid:28)u ) có th(cid:28) (cid:7)(cid:10)(cid:26)c xem nh(cid:10) là m(cid:23)t (cid:7)1 th(cid:19) trong RDF. Phát bi(cid:28)u nh(cid:10) sau: “The Author of http://www.cs.bris.ac.uk/home/pw2538/index.html is Peng Wang” Câu trên (cid:7)(cid:10)(cid:26)c phân tích thành 3 ph(cid:2)n: Subject ( Resource ) http://www.cs.bris.ac.uk/home/pw2538/index.html Predicate (Property) Author Object (Literal) Peng Wang 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 47 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh (cid:1)(cid:10)(cid:26)c bi(cid:28)u di-n d(cid:10)(cid:20)i d(cid:11)ng (cid:7)1 th(cid:19) nh(cid:10) sau: (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc Chi(cid:31)u c$a m/i tên luôn h(cid:10)(cid:20)ng t(cid:30) subject (cid:7)(cid:8)n object c$a phát bi(cid:28)u ( statement). Và (cid:7)1 th(cid:19) có th(cid:28) (cid:7)(cid:12)c theo cách sau: “ “http://www.cs.bris.ac.uk/home/pw2538/index.html has author Peng Wang”. N(cid:8)u chúng ta gán m(cid:23)t URI cho thu(cid:23)c tính author, thì s* có : http://www.cs.bris.ac.uk/home/pw2538/terms/author (cid:1)(cid:28) trình bày ng(cid:16)n g(cid:12)n, chúng ta (cid:7)(cid:10)a ra m(cid:23)t s(cid:17) ti(cid:31)n t(cid:17) ( prefix) (cid:7)(cid:28) tránh ph(cid:5)i vi(cid:8)t l(cid:11)i toàn b(cid:23) (cid:7)(cid:19)a ch& URI tham chi(cid:8)u (cid:7)(cid:8)n. Có m(cid:23)t s(cid:17) ti(cid:31)n t(cid:17) g(cid:16)n li(cid:31)n v(cid:20)i các URI (cid:7)(cid:10)(cid:26)c s% d!ng r(cid:23)ng rãi sau: Ti(cid:31)n t(cid:17) rdf: là không gian tên cho URI: http://www.w3.org/1999/02/22-rdf-syntax-ns# Ti(cid:31)n t(cid:17) rdfs: là không gian tên cho URI: http://www.w3.org/2000/01/rdf-schema# Ti(cid:31)n t(cid:17) daml: là không gian tên cho URI: http://www.daml.org/2001/03/daml+oil# Ti(cid:31)n t(cid:17) xsd: là không gian tên cho URI: http://www.w3.org/2001/XMLSchema# Trong ví d! này, chúng ta dùng không gian tên là pwterms (cid:7)(cid:28) (cid:7)(cid:11)i di(cid:9)n cho (cid:7)(cid:19)a ch& URI mà ta tham chi(cid:8)u (cid:7)(cid:8)n: http://www.cs.bris.ac.uk/home/pw2538/terms Khi (cid:7)ó cú pháp RDF cho câu phát bi(cid:28)u: “The Author of http://www.cs.bris.ac.uk/home/pw2538/index.html is Peng Wang” là: rdf:about="http://www.cs.bris.ac.uk/home/pw2538/index.html"> xmlns:pwterms=" http://www.cs.bris.ac.uk/home/pw2538/terms"> 1
2
3
4
5
6
7 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 48 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc M(cid:23)t câu phát bi(cid:28)u khác: “M(cid:23)t ng(cid:10)(cid:4)i có mã s(cid:17) sinh viên là pw2538 có tên là Peng Wang và có (cid:7)(cid:19)a ch& email là pw2538@bristol.ac.uk . Ng(cid:10)(cid:4)i này là tác gi(cid:5) c$a tài nguyên http://www.cs.bris.ac.uk/home/pw2538/index.html” Có (cid:7)1 th(cid:19) nh(cid:10) sau: 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 49 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh Có cú pháp RDF: (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc Mô hình d% li&u RDF (RDF Data Model): RDF cung c#p m(cid:23)t mô hình cho vi(cid:9)c mô t(cid:5) các tài nguyên. Tài nguyên có các tính ch#t (property) – thu(cid:23)c tính ho"c là (cid:7)"c tr(cid:10)ng. RDF (cid:7)(cid:19)nh ngh a tài nguyên nh(cid:10) là m(cid:23)t (cid:7)(cid:17)i t(cid:10)(cid:26)ng b#t k3 có th(cid:28) nh(cid:14)n bi(cid:8)t duy nh#t b0ng m(cid:23)t URI. Các property (cid:7)(cid:10)(cid:26)c k(cid:8)t h(cid:26)p v(cid:20)i các tài nguyên (cid:7)(cid:10)(cid:26)c nh(cid:14)n bi(cid:8)t b(cid:3)i các property – types, và các property – types này có các values t(cid:10)(cid:6)ng (cid:27)ng. Property – types mô t(cid:5) m(cid:17)i quan h(cid:9) c$a các values (cid:7)(cid:10)(cid:26)c k(cid:8)t h(cid:26)p v(cid:20)i các tài nguyên. Trong RDF, các values có th(cid:28) (cid:7)(cid:10)(cid:26)c xem nh(cid:10) là nguyên t% trong t(cid:13) nhiên ( chu(cid:15)i text, s(cid:17), v.v…) ho"c là các lo(cid:11)i tài nguyên khác. B(cid:5)n ch#t c(cid:17)t lõi c$a RDF là m(cid:23)t mô hình (cid:7)(cid:23)c l(cid:14)p cú pháp cho vi(cid:9)c trình bày các 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 50 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh tài nguyên và s(cid:13) mô t(cid:5) t(cid:10)(cid:6)ng (cid:27)ng c$a chúng. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc Mô hình d(cid:25) li(cid:9)u RDF là m(cid:23)t (cid:7)1 th(cid:19) có gán nhãn (cid:7)(cid:19)nh h(cid:10)(cid:20)ng, trong (cid:7)ó các nút là các tài nguyên (nh(cid:25)ng th(cid:13)c th(cid:28) v(cid:20)i URI) ho"c nh(cid:25)ng ký t(cid:13), và các c(cid:11)nh là nh(cid:25)ng thu(cid:23)c tính. Nh(cid:10) (cid:7)ã gi(cid:20)i thi(cid:9)u, m(cid:23)t phát bi(cid:28)u RDF là m(cid:23)t b(cid:23) ba (Ch$ ng(cid:25), V(cid:19) ng(cid:25), B. ng(cid:25)). Trong (cid:7)ó, tài nguyên là Ch$ ng(cid:25) c$a m(cid:23)t phát bi(cid:28)u có thu(cid:23)c tính mà giá tr(cid:19) c$a nó là B. ng(cid:25) c$a m(cid:23)t phát bi(cid:28)u. M(cid:23)t B. ng(cid:25) có th(cid:28) là tài nguyên ho"c có th(cid:28) là m(cid:23)t giá tr(cid:19) ký t(cid:13). M(cid:23)t phát bi(cid:28)u có th(cid:28) (cid:7)(cid:10)(cid:26)c (cid:7)(cid:11)i di(cid:9)n nh(cid:10) m(cid:23)t (cid:7)1 th(cid:19), b0ng cách v* m(cid:23)t cung t(cid:30) m(cid:23)t nút (Ch$ ng(cid:25)) (cid:7)(cid:8)n nút khác (B. ng(cid:25)). Hình 11: Mô hình d% li&u RDF RDF là m(cid:23)t cách thành l(cid:14)p cho vi(cid:9)c x% lý siêu d(cid:25) li(cid:9)u, nó cung c#p interoperability (thao tác gi(cid:13)a các ph(cid:14)n) gi(cid:25)a các (cid:27)ng d!ng mà chuy(cid:28)n (cid:7).i thông tin máy có th(cid:28) hi(cid:28)u (cid:7)(cid:10)(cid:26)c trên web. RDF nh#n m(cid:11)nh các ti(cid:9)n ích (cid:7)(cid:28) có th(cid:28) x% lý t(cid:13) (cid:7)(cid:23)ng các tài nguyên web. 2.2.7.3 RDF Schema – m(cid:25)t ngôn ng% mô t(cid:19) t" v#ng Ngôn ng(cid:25) (cid:7)(cid:10)(cid:26)c (cid:7)(cid:19)nh ngh a trong (cid:7)"c t(cid:5) này (specification) g1m m(cid:23)t t(cid:14)p h(cid:26)p các tài nguyên mà có th(cid:28) (cid:7)(cid:10)(cid:26)c s% d!ng (cid:7)(cid:28) mô t(cid:5) các thu(cid:23)c tính c$a các tài nguyên RDF khác ( bao g1m c(cid:5) các thu(cid:23)c tính) – (cid:7)(cid:19)nh ngh a t(cid:14)p t(cid:30) v(cid:13)ng RDF c$a (cid:27)ng d!ng xác (cid:7)(cid:19)nh. T(cid:14)p t(cid:30) v(cid:13)ng này ch$ y(cid:8)u (cid:7)(cid:10)(cid:26)c (cid:7)(cid:19)nh ngh a trong m(cid:23)t không gian tên (cid:7)(cid:10)(cid:26)c 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 51 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh g(cid:12)i là “rdfs”, và (cid:7)(cid:10)(cid:26)c nh(cid:14)n bi(cid:8)t b(cid:3)i tham chi(cid:8)u URI: http://www.w3.org/2000/01/rdf- (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc schema#. (cid:1)"c t(cid:5) này c/ng s% d!ng ti(cid:31)n t(cid:17) “rdf” (cid:7)(cid:28) tham chi(cid:8)u (cid:7)(cid:8)n không gian tên RDF chính: http://www.w3.org/1999/02/22-rdf-syntax-ns#. H(cid:9) th(cid:17)ng class và property trong RDF Schema c/ng t(cid:10)(cid:6)ng t(cid:13) nh(cid:10) các h(cid:9) th(cid:17)ng ki(cid:28)u c$a các ngôn ng(cid:25) h(cid:10)(cid:20)ng (cid:7)(cid:17)i t(cid:10)(cid:26)ng nh(cid:10) Java. Tuy nhiên, RDF khác v(cid:20)i các h(cid:9) th(cid:17)ng khác (cid:3) ch(cid:15) thay vì (cid:7)(cid:19)nh ngh a m(cid:23)t class trong quan h(cid:9) c$a các thu(cid:23)c tính mà th(cid:28) hi(cid:9)n c$a nó có th(cid:28) có, RDF Schema s* (cid:7)(cid:19)nh ngh a các thu(cid:23)c tính trong quan h(cid:9) c$a các l(cid:20)p c$a tài nguyên mà chúng (cid:27)ng d!ng. (cid:1)ây là nhi(cid:9)m v! c$a rdfs:domain và rdfs:range (cid:7)(cid:10)(cid:26)c mô t(cid:5) trong (cid:7)"c t(cid:5) này. Ví d!, chúng ta có th(cid:28) (cid:7)(cid:19)nh ngh a thu(cid:23)c tính eg:author, có mi(cid:31)n là eg:Document và gi(cid:20)i h(cid:11)n là eg:Person, nh(cid:10)ng trái l(cid:11)i m(cid:23)t h(cid:9) th(cid:17)ng h(cid:10)(cid:20)ng (cid:7)(cid:17)i t(cid:10)(cid:26)ng kinh (cid:7)i(cid:28)n có th(cid:28) (cid:7)(cid:19)nh ngh a m(cid:23)t cách (cid:7)"c tr(cid:10)ng m(cid:23)t class eg:Book v(cid:20)i m(cid:23)t thu(cid:23)c tính (cid:7)(cid:10)(cid:26)c g(cid:12)i là eg:author c$a ki(cid:28)u eg:Person. T" v#ng Domain and Range (cid:1)"c t(cid:5) này gi(cid:20)i thi(cid:9)u t(cid:14)p t(cid:30) v(cid:13)ng RDF cho vi(cid:9)c mô t(cid:5) cách s% d!ng (cid:7)(cid:2)y (cid:7)$ ng(cid:25) ngh a c$a các property và các class trong d(cid:25) li(cid:9)u RDF. Ví d!, m(cid:23)t l(cid:10)(cid:26)c (cid:7)1 RDF có th(cid:28) mô t(cid:5) gi(cid:20)i h(cid:11)n trên các ki(cid:28)u c$a các value thích h(cid:26)p v(cid:20)i m(cid:23)t s(cid:17) thu(cid:23)c tính. RDF Schema cung c#p c(cid:6) ch(cid:8) (k(cid:29) thu(cid:14)t) cho vi(cid:9)c mô t(cid:5) thông tin này, nh(cid:10)ng không th(cid:28) nói trong tr(cid:10)(cid:4)ng h(cid:26)p nào thì (cid:27)ng d!ng nên s% d!ng nó và s% d!ng nh(cid:10) th(cid:8) nào. Các (cid:27)ng d!ng khác nhau s* s% d!ng thông tin này theo nhi(cid:31)u cách khác nhau. Ví d!, các công c! ki(cid:28)m tra d(cid:25) li(cid:9)u có th(cid:28) s% d!ng thông tin này (cid:7)(cid:28) tìm ra các l(cid:15)i trong dataset, m(cid:23)t trình so(cid:11)n th(cid:5)o giao ti(cid:8)p gi(cid:25)a ng(cid:10)(cid:4)i và máy có th(cid:28) (cid:7)(cid:31) ngh(cid:19) nh(cid:25)ng giá tr(cid:19) thích h(cid:26)p, và m(cid:23)t (cid:27)ng d!ng suy lu(cid:14)n có th(cid:28) s% d!ng nó suy lu(cid:14)n r1i (cid:7)(cid:10)a ra thông tin m(cid:20)i t(cid:30) d(cid:25) li(cid:9)u ban (cid:7)(cid:2)u. L(cid:10)(cid:26)c (cid:7)1 RDF (RDF Schema) có th(cid:28) mô t(cid:5) các m(cid:17)i quan h(cid:9) gi(cid:25)a các t(cid:30) v(cid:13)ng t(cid:30) nhi(cid:31)u l(cid:10)(cid:26)c (cid:7)1 (cid:7)(cid:10)(cid:26)c phát tri(cid:28)n (cid:7)(cid:23)c l(cid:14)p nhau. B(cid:3)i vì tham chi(cid:8)u URI (cid:7)(cid:10)(cid:26)c s% d!ng (cid:7)(cid:28) nh(cid:14)n bi(cid:8)t các class và property trên web, nên nó có th(cid:28) t(cid:11)o ra các thu(cid:23)c tính (property) m(cid:20)i có domain và range mà giá tr(cid:19) c$a nó (cid:7)(cid:10)(cid:26)c (cid:7)(cid:19)nh ngh a trong m(cid:23)t namespace khác. (cid:1)"c t(cid:5) này không c(cid:17) g(cid:16)ng (cid:7)(cid:28) li(cid:9)t kê t#t c(cid:5) các hình th(cid:27)c có th(cid:28) có c$a vi(cid:9)c mô 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 52 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh t(cid:5) t(cid:30) v(cid:13)ng mà nó (cid:7)(cid:10)(cid:26)c s% d!ng (cid:7)(cid:28) trình bày ng(cid:25) ngh a c$a các class và property c$a (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc RDF. Thay vào (cid:7)ó, chi(cid:8)n l(cid:10)(cid:26)c mô t(cid:5) t(cid:30) v(cid:13)ng RDF th(cid:30)a nh(cid:14)n r0ng có nhi(cid:31)u k(cid:29) thu(cid:14)t mà thông qua (cid:7)ó ng(cid:25) ngh a c$a các class và property (cid:7)(cid:10)(cid:26)c cho bi(cid:8)t, và (cid:7)(cid:28) xu#t b(cid:5)n m(cid:23)t s(cid:17) quy (cid:10)(cid:20)c cho vi(cid:9)c s% d!ng RDF/XML (cid:7)(cid:28) mô t(cid:5) các (cid:7)"c tr(cid:10)ng c$a các class và property cu(cid:5) RDF. L(cid:10)(cid:26)c (cid:7)1 t(cid:17)t h(cid:6)n ho"c là các ngôn ng(cid:25) “ontology” nh(cid:10) là DAML+OIL, W3C, các ngôn ng(cid:25) suy lu(cid:14)n d(cid:13)a trên lu(cid:14)t, và các ch$ ngh a hình th(cid:27)c khác, m(cid:15)i lo(cid:11)i s* góp ph(cid:2)n cho kh(cid:5) n(cid:18)ng c$a chúng ta n(cid:16)m b(cid:16)t (cid:7)(cid:10)(cid:26)c s(cid:13) t.ng h(cid:26)p (cid:7)(cid:2)y (cid:7)$ ng(cid:25) ngh a v(cid:31) d(cid:25) li(cid:9)u trên web. Các nhà thi(cid:8)t k(cid:8) t(cid:30) v(cid:13)ng RDF có th(cid:28) t(cid:11)o và phát tri(cid:28)n các (cid:27)ng d!ng web ng(cid:25) ngh a b0ng cách s% d!ng ti(cid:9)n ích The basic RDF Schema 1.0, trong khi trình bày các ngôn ng(cid:25) mô t(cid:5) t(cid:30) v(cid:13)ng t(cid:17)t h(cid:6)n – cách này c/ng s% d!ng h(cid:10)(cid:20)ng ti(cid:8)p c(cid:14)n này. S(cid:15) l(cid:14)(cid:29)c v(cid:22) RDF Schema B(cid:5)ng này trình bày m(cid:23)t cách t.ng quát v(cid:31) t(cid:14)p t(cid:30) v(cid:13)ng c(cid:6) s(cid:3) c$a RDF Ghi chú Tên l(cid:20)p rdfs:Resource The class resource, everything. This represents the set of atomic values, eg. rdfs:Literal textual strings. rdfs:XMLLiteral The class of XML literals. rdfs:Class The concept of Class rdf:Property The concept of a property. rdfs:Datatype The class of datatypes. rdf:Statement The class of RDF statements. rdf:Bag An unordered collection. rdf:Seq An ordered collection. 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 53 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh rdf:Alt A collection of alternatives. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc rdfs:Container This represents the set Containers. The container membership properties, rdf:1, rdfs:ContainerMembershipProperty rdf:2, ..., all of which are sub-properties of 'member'. rdf:List The class of RDF Lists B(cid:19)ng 3 : Các l(cid:20)p trong RDF Property name comment domain range rdf:type Indicates membership of a class rdfs:Resource rdfs:Class rdfs:subClassOf Indicates membership of a class rdfs:Class rdfs:Class rdf:Propert Indicates specialization of rdf:Property rdfs:subPropertyOf properties y rdfs:domain rdfs:Class A domain class for a property type rdf:Property rdfs:range A range class for a property type rdf:Property rdfs:Class Provides a human-readable rdfs:label rdfs:Resource rdfs:Literal version of a resource name. rdfs:comment Use this for descriptions rdfs:Resource rdfs:Literal not rdfs:member a member of a container rdfs:Container specified The first item in an RDF list. Also not rdf:List rdf:first often called the head. specified The rest of an RDF list after the rdf:List rdf:List rdf:rest first item. Also often called the 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 54 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh tail. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc A resource that provides rdfs:Resour rdfs:seeAlso rdfs:Resource information about the subject ce resource Indicates rdfs:Resour the namespace of a rdfs:isDefinedBy rdfs:Resource resource ce Identifies the principal value not (usually a string) of a property rdf:value rdfs:Resource when the property value is a specified structured resource rdfs:Resour rdf:subject The subject of an RDF statement. rdf:Statement ce rdf:Propert rdf:predicate the predicate of an RDF statement. rdf:Statement y not rdf:object The object of an RDF statement. rdf:Statement specified B(cid:19)ng 4:Các thu(cid:23)c tính c$a RDF 2.3. eDoc (Mô t(cid:5) các t(cid:30) v(cid:13)ng c$a RDF (cid:7)(cid:10)(cid:26)c trình bày trong ph(cid:2)n Ph! l!c [1].) 2.3.1. Tìm hi6u eLearning 2.3.1.1. Khái ni&m eLearning hay còn g(cid:12)i là Online Learning, chu5n cho t#t c(cid:5) các hình th(cid:27)c c$a 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 55 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh vi(cid:9)c h(cid:12)c. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc Online learning liên quan (cid:7)(cid:8)n vi(cid:9)c s% d!ng các công ngh(cid:9) m(cid:11)ng ( nh(cid:10) là: Internet hay là m(cid:11)ng th(cid:10)(cid:6)ng m(cid:11)i – bussiness network) cho vi(cid:9)c phân phát, h(cid:15) tr(cid:26), (cid:7)ánh giá vi(cid:9)c d(cid:11)y h(cid:12)c chính qui và không chính qui. “H(cid:12)c” x(cid:5)y ra (cid:3) (cid:7)âu và nh(cid:10) th(cid:8) nào? (: các tài nguyên và các tài li(cid:9)u tr(cid:13)c tuy(cid:8)n, các th(cid:10) vi(cid:9)n (cid:7)i(cid:9)n t%, các tài li(cid:9)u; và các khoá h(cid:12)c, các bu.i th(cid:5)o lu(cid:14)n, chats, email, h(cid:23)i ngh(cid:19), và các (cid:27)ng d!ng chia s, tri th(cid:27)c. M(cid:23)t chú ý quan tr(cid:12)ng là online learning không nh#t thi(cid:8)t ph(cid:5)i di-n ra tr(cid:13)c tuy(cid:8)n (online). S% d!ng công ngh(cid:9) cho vi(cid:9)c h(cid:12)c th(cid:10)(cid:4)ng là m(cid:23)t y(cid:8)u t(cid:17) ph! (cid:7)(cid:17)i v(cid:20)i l(cid:20)p h(cid:12)c và các c(cid:6) h(cid:23)i h(cid:12)c tr(cid:13)c ti(cid:8)p ( face – to – face ). M(cid:23)t s(cid:17) nguyên nhân (cid:7)(cid:28) s% d!ng online learning: a. Vi(cid:9)c truy c(cid:14)p (cid:7)(cid:10)(cid:26)c c(cid:5)i thi(cid:9)n và tính linh (cid:7)(cid:23)ng: M(cid:12)i ng(cid:10)(cid:4)i có th(cid:28) (cid:7)(cid:18)ng nh(cid:14)p vào b#t k3 m(cid:23)t máy tính nào, (cid:3) t(cid:11)i nhà ho"c (cid:3) n(cid:6)i làm vi(cid:9)c, vào b#t k3 lúc nào k(cid:28) c(cid:5) ngày l(cid:21)n (cid:7)êm, (cid:7)(cid:28) l#y bài h(cid:12)c ho"c tham kh(cid:5)o (cid:7)(cid:8)n các tài li(cid:9)u h(cid:12)c. b. Phân ph(cid:17)i nhanh h(cid:6)n và ti(cid:8)t ki(cid:9)m chi phí: (cid:1)(cid:17)i v(cid:20)i các t. ch(cid:27)c c(cid:2)n truy(cid:31)n (cid:7)(cid:11)t thông tin quan tr(cid:12)ng mà thông tin này nhanh chóng tr(cid:3) nên l(cid:15)i th(cid:4)i ( ví d!, phiên b(cid:5)n m(cid:20)i nh#t c$a m(cid:23)t s(cid:5)n ph5m), thì hình th(cid:27)c online h(cid:2)u nh(cid:10) là r, h(cid:6)n và nhanh h(cid:6)n nhi(cid:31)u so v(cid:20)i vi(cid:9)c ng(cid:10)(cid:4)i truy(cid:31)n (cid:7)(cid:11)t ph(cid:5)i bay qua nhi(cid:31)u qu(cid:17)c gia (cid:7)(cid:28) g"p g(cid:22) nh(cid:25)ng h(cid:12)c viên (cid:3) l(cid:20)p h(cid:12)c v(cid:20)i hàng ti(cid:8)ng (cid:7)1ng h1. c. C(cid:5)i ti(cid:8)n vi(cid:9)c (cid:7)i(cid:31)u hành và chu5n hoá: Trong môi tr(cid:10)(cid:4)ng th(cid:10)(cid:6)ng m(cid:11)i qu(cid:17)c t(cid:8) ngày nay, nhi(cid:31)u t. ch(cid:27)c m(cid:3) r(cid:23)ng trên ph(cid:11)m vi toàn c(cid:2)u. S(cid:13) khác nhau v(cid:31) ki(cid:8)n th(cid:27)c và k(cid:29) n(cid:18)ng c$a các cá nhân d(cid:11)y có th(cid:28) s* làm cho ch#t l(cid:10)(cid:26)ng h(cid:12)c c$a các h(cid:12)c viên (cid:3) nh(cid:25)ng n(cid:6)i khác nhau s* khác nhau: ví d! nh(cid:25)ng ng(cid:10)(cid:4)i h(cid:12)c (cid:3) New Delphi s* có ch#t l(cid:10)(cid:26)ng hu#n luy(cid:9)n khác v(cid:20)i nh(cid:25)ng ng(cid:10)(cid:4)i (cid:3) New York. Online learning cung c#p thông tin nh#t quán, ph. bi(cid:8)n (cid:7)(cid:17)i v(cid:20)i các (cid:7)(cid:17)i t(cid:10)(cid:26)ng (cid:3) kh(cid:16)p n(cid:6)i. Làm n.i b(cid:14)t thông tin truy(cid:31)n (cid:7)(cid:11)t và s(cid:13) c(cid:23)ng tác: Thông qua nh(cid:25)ng ph(cid:2)n m(cid:31)m nào (cid:7)ó s* cho phép nh(cid:25)ng ng(cid:10)(cid:4)i h(cid:12)c (cid:7)(cid:10)(cid:26)c giao ti(cid:8)p v(cid:20)i nhau, c(cid:23)ng tác v(cid:20)i nhau qua 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 56 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh các d(cid:13) án, và chia s, tài li(cid:9)u mà không c(cid:2)n ph(cid:5)i g"p m"t tr(cid:13)c ti(cid:8)p. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc 2.3.1.2. Các chu,n c a eLearning Ngành công nghi(cid:9)p eLearning ti(cid:8)p t!c (cid:7)(cid:10)(cid:26)c m(cid:3) r(cid:23)ng m(cid:15)i ngày, và các chu5n c(cid:2)n thi(cid:8)t (cid:7)(cid:28) t(cid:11)o n(cid:23)i dung bài h(cid:12)c ngày càng tr(cid:3) nên ph(cid:27)c t(cid:11)p. Tr(cid:10)(cid:20)c khi m(cid:23)t “qui (cid:10)(cid:20)c” c$a eLearning tr(cid:3) thành “standards” (chu5n), nó (cid:7)(cid:10)(cid:26)c g(cid:12)i là “specification” ( (cid:7)"c t(cid:5) ). Specification (cid:7)(cid:10)(cid:26)c duy(cid:9)t b(cid:3)i m(cid:23)t t. ch(cid:27)c – t. ch(cid:27)c này (cid:7)(cid:10)(cid:26)c m(cid:12)i ng(cid:10)(cid:4)i công nh(cid:14)n, nh(cid:10) là IEEE ch+ng h(cid:11)n. M(cid:23)t s(cid:17) chu5n c$a eLearning: a. T(cid:13)p ph(cid:14)n t(cid:15) siêu d(cid:1) li(cid:2)u Dublin Core T(cid:14)p ph(cid:2)n t% siêu d(cid:25) li(cid:9)u Dublin Core ( The Dublin Core metada element set) là chu5n cho s(cid:13) mô t(cid:5) tài nguyên thông tin xuyên domain (b(cid:18)ng qua nhi(cid:31)u domain). ( (cid:7)ây, tài nguyên thông tin (cid:7)(cid:10)(cid:26)c (cid:7)(cid:19)nh ngh a là b#t k3 th(cid:27) gì mà có th(cid:28) nh(cid:14)n bi(cid:8)t (cid:7)(cid:10)(cid:26)c. (cid:1)(cid:17)i v(cid:20)i các (cid:27)ng d!ng Dublin Core, m(cid:23)t tài nguyên s* là m(cid:23)t tài li(cid:9)u (cid:7)i(cid:9)n t% (electronic document). Siêu d(cid:25) li(cid:9)u Dublin Core (cid:7)(cid:10)(cid:26)c dùng cho vi(cid:9)c tìm ki(cid:8)m và ch& m!c cho các siêu d(cid:25) li(cid:9)u d(cid:13)a trên Web. T(cid:14)p siêu d(cid:25) li(cid:9)u này cung c#p t(cid:30) v(cid:13)ng ng(cid:25) ngh a nh(cid:10): “Description”, “Creator” và “Date” cho vi(cid:9)c mô t(cid:5) nh(cid:25)ng (cid:7)"c tr(cid:10)ng thông tin quan tr(cid:12)ng c$a các tài nguyên Internet. T(cid:14)p siêu d(cid:25) li(cid:9)u Dublin Core cung c#p 15 t(cid:30) v(cid:13)ng:
• Title: Tên (cid:7)(cid:10)(cid:26)c gán cho tài nguyên.
• Creator: Th(cid:13)c th(cid:28) có trách nhi(cid:9)m t(cid:11)o ra tài nguyên. Ví d! nh(cid:10): 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 57 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh cá nhân, t. ch(cid:27)c hay m(cid:23)t d(cid:19)ch v! nào (cid:7)ó.
• Subject: Ch$ (cid:7)(cid:31) n(cid:23)i dung c$a tài nguyên.
• Description: Mô t(cid:5) n(cid:23)i dung c$a tài nguyên.
• Publisher: Th(cid:13)c th(cid:28) có nhi(cid:9)m v! t(cid:11)o ra tài nguyên.
• Contributor: Th(cid:13)c th(cid:28) có (cid:7)óng góp vào n(cid:23)i dung c$a tài nguyên.
• Date: Ngày tài nguyên (cid:7)(cid:10)(cid:26)c t(cid:11)o.
• Type: Th(cid:28) lo(cid:11)i n(cid:23)i dung c$a tài nguyên.
• Format: D(cid:11)ng l(cid:10)u tr(cid:25) v(cid:14)t lý c$a tài nguyên. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc • Identifier: M(cid:23)t tham chi(cid:8)u c! th(cid:28) (cid:7)(cid:8)n tài nguyên trong m(cid:23)t ng(cid:25) c(cid:5)nh cho phép. • Source: Tham chi(cid:8)u (cid:7)(cid:8)n m(cid:23)t tài nguyên mà tài nguyên (cid:7)(cid:10)(cid:26)c d(cid:21)n xu#t. • Language: Ngôn ng(cid:25) s% d!ng b(cid:3)i n(cid:23)i dung c$a tài nguyên.
• Relation: Tham chi(cid:8)u (cid:7)(cid:8)n m(cid:23)t tài nguyên liên quan
• Coverage: M(cid:3) r(cid:23)ng n(cid:23)i dung c$a tài nguyên
• Right: Thông tin v(cid:31) quy(cid:31)n s(cid:3) h(cid:25)u tài nguyên. b. LOM (Learning Object Metadata) LOM là m(cid:23)t chu5n v(cid:31) eLearning hi(cid:9)n t(cid:11)i (cid:7)(cid:10)(cid:26)c phát tri(cid:28)n b(cid:3)i t. ch(cid:27)c IEEE. T. ch(cid:27)c chu5n hoá công ngh(cid:9) h(cid:12)c (Learning Technology Standards Committee) c$a IEEE (cid:7)ã phát tri(cid:28)n chu5n LOM nh0m giúp cho vi(cid:9)c s% d!ng và s% d!ng l(cid:11)i c$a các tài nguyên h(cid:12)c (cid:7)(cid:10)(cid:26)c h(cid:15) tr(cid:26) công ngh(cid:9) nh(cid:10) là vi(cid:9)c hu#n luy(cid:9)n d(cid:13)a trên máy tính, và vi(cid:9)c h(cid:12)c t(cid:30) xa. Trong m(cid:23)t h(cid:9) th(cid:17)ng eLearning, (cid:7)(cid:17)i t(cid:10)(cid:26)ng h(cid:12)c là nh(cid:25)ng gì có th(cid:28) (cid:7)(cid:10)(cid:26)c s% d!ng, k(cid:8) th(cid:30)a hay tham kh(cid:5)o trong vi(cid:9)c h(cid:15) tr(cid:26) công ngh(cid:9) h(cid:12)c. Hi(cid:9)n t(cid:11)i m(cid:23)t s(cid:17) (cid:7)(cid:17)i t(cid:10)(cid:26)ng (cid:7)ang (cid:7)(cid:10)(cid:26)c ti(cid:8)p t!c phát tri(cid:28)n nh0m (cid:7)áp (cid:27)ng nhu c(cid:2)u h(cid:12)c thay (cid:7).i nhanh chóng. Vi(cid:9)c thi(cid:8)u thông tin hay siêu d(cid:25) li(cid:9)u v(cid:31) (cid:7)(cid:17)i t(cid:10)(cid:26)ng h(cid:12)c t(cid:11)o ra nhi(cid:31)u c(cid:5)n tr(cid:3), h(cid:11)n ch(cid:8) cho kh(cid:5) n(cid:18)ng qu(cid:5)n lý, khám phá và s% d!ng (cid:7)(cid:17)i t(cid:10)(cid:26)ng h(cid:12)c. LOM gi(cid:5)i quy(cid:8)t v#n (cid:7)(cid:31) trên b0ng cách (cid:7)(cid:19)nh ngh a m(cid:23)t c#u trúc cho vi(cid:9)c mô t(cid:5) m(cid:23)t (cid:7)(cid:17)i t(cid:10)(cid:26)ng h(cid:12)c. LOM ch& ra cú pháp và ng(cid:25) ngh a c$a các siêu d(cid:25) li(cid:9)u (cid:7)(cid:17)i t(cid:10)(cid:26)ng h(cid:12)c, (cid:7)(cid:19)nh ngh a các thu(cid:23)c tính nh0m mô t(cid:5) (cid:7)(cid:2)y (cid:7)$ và tho(cid:5) (cid:7)áng các (cid:7)(cid:17)i t(cid:10)(cid:26)ng h(cid:12)c. M!c (cid:7)ích c$a LOM:
(cid:2) Cho phép ng(cid:10)(cid:4)i h(cid:12)c hay ng(cid:10)(cid:4)i h(cid:10)(cid:20)ng d(cid:21)n tìm ki(cid:8)m, (cid:7)ánh giá (cid:7)(cid:17)i 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 58 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh t(cid:10)(cid:26)ng h(cid:12)c. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc (cid:2) Cho phép chia s, và trao (cid:7).i các (cid:7)(cid:17)i t(cid:10)(cid:26)ng h(cid:12)c qua b#t k3 công ngh(cid:9) có h(cid:15) tr(cid:26) h(cid:9) th(cid:17)ng h(cid:12)c. (cid:2) Cho phép phát tri(cid:28)n các (cid:7)(cid:17)i t(cid:10)(cid:26)ng h(cid:12)c theo các (cid:7)(cid:6)n v(cid:19) có kh(cid:5) n(cid:18)ng k(cid:8)t h(cid:26)p hay phân rã theo m(cid:23)t ph(cid:10)(cid:6)ng pháp phù h(cid:26)p. (cid:2) Cho phép các agent máy tính linh (cid:7)(cid:23)ng là t(cid:13) (cid:7)(cid:23)ng trong vi(cid:9)c t. ch(cid:27)c các bài h(cid:12)c cung c#p (cid:7)(cid:8)n ng(cid:10)(cid:4)i h(cid:12)c. (cid:2) Nó hoàn toàn d(cid:13)a trên chu5n và quan tâm (cid:7)(cid:8)n các (cid:7)(cid:17)i t(cid:10)(cid:26)ng h(cid:12)c trong môi tr(cid:10)(cid:4)ng m(cid:3) và phân tán. (cid:2) Cho phép các công ngh(cid:9) m(cid:20)i k(cid:8)t h(cid:26)p v(cid:20)i các (cid:7)(cid:17)i t(cid:10)(cid:26)ng h(cid:12)c.
(cid:2) Cung c#p cho các nhà nghiên c(cid:27)u chu5n h(cid:15) tr(cid:26) và s(cid:10)u t(cid:14)p d(cid:25) li(cid:9)u liên quan (cid:7)(cid:8)n hi(cid:9)u qu(cid:5) c$a các (cid:7)(cid:17)i t(cid:10)(cid:26)ng h(cid:12)c. LOM (cid:7)(cid:19)nh ngh a m(cid:23)t t(cid:14)p t(cid:17)i thi(cid:28)u các thu(cid:23)c tính (attributes) (cid:7)(cid:28) qu(cid:5)n lý, (cid:7)(cid:19)nh v(cid:19), và (cid:7)ánh giá các (cid:7)(cid:17)i t(cid:10)(cid:26)ng h(cid:12)c. Các thu(cid:23)c tính (cid:7)(cid:10)(cid:26)c gom nhóm thành 8 ph(cid:11)m trù: • General: ch(cid:27)a (cid:7)(cid:13)ng thông tin v(cid:31) toàn b(cid:23) (cid:7)(cid:17)i t(cid:10)(cid:26)ng.
• Lifecycle: ch(cid:27)a (cid:7)(cid:13)ng siêu d(cid:25) li(cid:9)u v(cid:31) s(cid:13) ti(cid:8)n hoá c$a các (cid:7)(cid:17)i t(cid:10)(cid:26)ng. • Technical: v(cid:20)i s(cid:13) mô t(cid:5) c$a các (cid:7)"c tr(cid:10)ng và yêu c(cid:2)u k(cid:29) thu(cid:14)t.
• Educational: ch(cid:27)a (cid:7)(cid:13)ng các thu(cid:23)c tính v(cid:31) giáo d!c ho"c s(cid:10) ph(cid:11)m.
• Rights: mô t(cid:5) quy(cid:31)n s(cid:3) h(cid:25)u và các (cid:7)i(cid:31)u ki(cid:9)n s% d!ng
• Relation: nh(cid:14)n bi(cid:8)t các (cid:7)(cid:17)i t(cid:10)(cid:26)ng có liên quan v(cid:20)i nhau.
• Annotation: ch(cid:27)a (cid:7)(cid:13)ng các chú thích và ngày, tác gi(cid:5) c$a các chú thích này. • Classification: nh(cid:14)n bi(cid:8)t các b(cid:23) nh(cid:14)n di(cid:9)n h(cid:9) th(cid:17)ng phân lo(cid:11)i khác cho (cid:7)(cid:17)i t(cid:10)(cid:26)ng. Bên trong m(cid:15)i ph(cid:11)m trù là m(cid:23)t t(cid:14)p các ph(cid:2)n t% d(cid:25) li(cid:9)u có th(cid:27) t(cid:13), mà giá tr(cid:19) c$a chúng là các metadata. Ví d!: Các ph(cid:2)n t% siêu d(cid:25) li(cid:9)u liên quan (cid:7)(cid:8)n vi(cid:9)c h(cid:12)c (cid:7)(cid:10)(cid:26)c tìm th#y trong ph(cid:11)m trù Education là Typical Age Range, 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 59 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh Difficulty, Typical Learning Time, và Interactivity Level. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc c. vCard vCard là chu5n (cid:7)(cid:10)(cid:26)c gi(cid:20)i thi(cid:9)u và phát tri(cid:28)n b(cid:20)i IMC (Internet Mail Consortium). Các thông tin cá nhân thông th(cid:10)(cid:4)ng r#t ph(cid:27)c t(cid:11)p và có nhi(cid:31)u lo(cid:11)i khác nhau. Hi(cid:9)n t(cid:11)i có m(cid:23)t s(cid:17) chu5n (cid:7)(cid:31) xu#t các c#u trúc cho vi(cid:9)c trao (cid:7).i thông tin cá nhân PDI (Personal Data Interchange). M!c (cid:7)ích c$a chu5n này là nh0m gi(cid:5)i quy(cid:8)t nhu c(cid:2)u s(cid:10)u t(cid:14)p và trao (cid:7).i thông tin cá nhân qua nhi(cid:31)u kênh thông tin khác nhau nh(cid:10) (cid:7)i(cid:9)n tho(cid:11)i, th(cid:10) (cid:7)i(cid:9)n t% hay (cid:7)(cid:17)i tho(cid:11)i tr(cid:13)c ti(cid:8)p. Chu5n vCard phù h(cid:26)p cho vi(cid:9)c trao (cid:7).i d(cid:25) li(cid:9)u cá nhân gi(cid:25)a các (cid:27)ng d!ng và h(cid:9) th(cid:17)ng. (cid:1)(cid:19)nh d(cid:11)ng c$a vCard hoàn toàn (cid:7)(cid:23)c l(cid:14)p v(cid:20)i ph(cid:10)(cid:6)ng pháp dùng (cid:7)(cid:28) truy(cid:31)n t(cid:5)i nó. Vi(cid:9)c truy(cid:31)n t(cid:5)i này có th(cid:28) là trao (cid:7).i m(cid:23)t h(cid:9) th(cid:17)ng t(cid:14)p tin, m(cid:11)ng chuy(cid:28)n m(cid:11)ch công c(cid:23)ng, m(cid:11)ng dây d(cid:21)n hay m(cid:11)ng không dây. vCard nh(cid:16)m (cid:7)(cid:8)n vi(cid:9)c trao (cid:7).i thông tin cá nhân. Trong môi tr(cid:10)(cid:4)ng th(cid:10)(cid:6)ng m(cid:11)i ngày nay, thông tin này th(cid:10)(cid:4)ng (cid:7)(cid:10)(cid:26)c trao (cid:7).i trên các th, th(cid:10)(cid:6)ng m(cid:11)i và vCard (cid:7)(cid:19)nh ngh a nh(cid:25)ng thông tin này d(cid:13)a trên các (cid:7)(cid:17)i t(cid:10)(cid:26)ng th, th(cid:10)(cid:6)ng m(cid:11)i (cid:7)i(cid:9)n t%. d. SCORM (Shareable Content Object Reference Model) SCORM (cid:7)(cid:19)nh ngh a mô hình k(cid:8)t h(cid:26)p gi(cid:25)a n(cid:23)i dung và môi tr(cid:10)(cid:4)ng th(cid:13)c thi cho các (cid:7)(cid:17)i t(cid:10)(cid:26)ng h(cid:12)c. (cid:1)ây là m(cid:23)t mô hình tham chi(cid:8)u (cid:7)(cid:8)n m(cid:23)t t(cid:14)p các k(cid:29) thu(cid:14)t liên quan vi(cid:9)c thi(cid:8)t k(cid:8) nh0m (cid:7)áp (cid:27)ng yêu c(cid:2)u n(cid:23)i dung h(cid:12)c d(cid:13)a trên Web, nh(cid:25)ng yêu c(cid:2)u này bao g1m kh(cid:5) n(cid:18)ng tái s% d!ng, truy xu#t, kh(cid:5) n(cid:18)ng t(cid:10)(cid:6)ng tác c$a các (cid:7)(cid:17)i t(cid:10)(cid:26)ng h(cid:12)c. e. IMS ( Instructional Management Systems) IMS (cid:7)ang (cid:7)(cid:10)(cid:26)c phát tri(cid:28)n và xúc ti(cid:8)n tr(cid:3) thành chu5n m(cid:3) cho các ho(cid:11)t (cid:7)(cid:23)ng eLearning nh(cid:10) s% d!ng, s(cid:16)p x(cid:8)p các n(cid:23)i dung giáo d!c và m(cid:3) r(cid:23)ng các khái ni(cid:9)m t.ng quát nh(cid:10): thi(cid:8)t k(cid:8) ng(cid:10)(cid:4)i h(cid:12)c, theo dõi và báo cáo quá trình ng(cid:10)(cid:4)i h(cid:12)c nh0m th(cid:13)c hi(cid:9)n vi(cid:9)c trao (cid:7).i thông tin gi(cid:25)a các h(cid:9) th(cid:17)ng h(cid:12)c khác 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 60 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh nhau. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc M!c (cid:7)ích c$a IMS:
• (cid:1)(cid:19)nh ngh a các chu5n k(cid:29) thu(cid:14)t nh0m nâng cao kh(cid:5) n(cid:18)ng t(cid:10)(cid:6)ng tác gi(cid:25)a (cid:27)ng d!ng và d(cid:19)ch v! trong môi tr(cid:10)(cid:4)ng h(cid:12)c phân tán hi(cid:9)n nay.
• H(cid:15) tr(cid:26) vi(cid:9)c sát nh(cid:14)p (cid:7)"c t(cid:5) c$a IMS vào trong các s(cid:5)n ph5m và d(cid:19)ch v! trên toàn th(cid:8) gi(cid:20)i. S(cid:13) ch#p nh(cid:14)n (cid:7)"c t(cid:5) r(cid:23)ng rãi s* cho phép phân ph(cid:17)i môi tr(cid:10)(cid:4)ng và n(cid:23)i dung h(cid:12)c t(cid:30) nhi(cid:31)u tác gi(cid:5) l(cid:11)i v(cid:20)i nhau. 2.3.2. Tìm hi6u eLib Elib (electronic library hay cò g(cid:12)i là digital library) là m(cid:23)t th(cid:10) vi(cid:9)n 5n. T(cid:30) ‘electronic library’ ng! ý là m(cid:23)t s(cid:10)u t(cid:14)p c$a các tài nguyên thông tin (cid:7)i(cid:9)n t% (cid:7)(cid:10)(cid:26)c n(cid:17)i m(cid:11)ng cùng k(cid:29) thu(cid:14)t liên k(cid:8)t và c(cid:6) s(cid:3) h(cid:11) t(cid:2)ng qu(cid:5)n tr(cid:19). B(cid:11)n có th(cid:28) truy c(cid:14)p nó t(cid:30) b#t c(cid:27) máy PC hay laptop có n(cid:17)i m(cid:11)ng nào t(cid:30) b#t c(cid:27) n(cid:6)i nào trên th(cid:8) gi(cid:20)i (cid:3) b#t c(cid:27) th(cid:4)i (cid:7)i(cid:28)m nào. Elib l(cid:10)u tr(cid:25) và ch& m!c hàng v(cid:11)n sách, báo, t(cid:11)p chí v(cid:31) (cid:7)$ các ch$ (cid:7)(cid:31) trên th(cid:8) gi(cid:20)i, ch+ng h(cid:11)n nh(cid:10) v(cid:14)t lí, thiên v(cid:18)n, sinh hoá, công ngh(cid:9) sinh h(cid:12)c, hoá h(cid:12)c và công trình xây d(cid:13)ng hoá ch#t, các thi(cid:8)t b(cid:19) xây d(cid:13)ng, công trình xây d(cid:13)ng môi tr(cid:10)(cid:4)ng, khoa h(cid:12)c th(cid:13)c ph5m, và an toàn s(cid:27)c kho, và v(cid:9) sinh .v.v… c/ng nh(cid:10) các tài li(cid:9)u v(cid:31) thông tin ti(cid:28)u s%, lí l(cid:19)ch cá nhân, ngh(cid:31) nghi(cid:9)p, các t. ch(cid:27)c, h(cid:23)i liên hi(cid:9)p, và du l(cid:19)ch v.v…. Th(cid:10) vi(cid:9)n (cid:7)i(cid:9)n t% này (cid:7)(cid:10)(cid:26)c s% d!ng ph. bi(cid:8)n nh#t trong các tr(cid:10)(cid:4)ng (cid:7)(cid:11)i h(cid:12)c và nh(cid:25)ng trung tâm nghiên c(cid:27)u khoa h(cid:12)c. T#t nhiên, (cid:7)(cid:17)i t(cid:10)(cid:26)ng s% d!ng nó chính là nh(cid:25)ng sinh viên, nghiên c(cid:27)u sinh và các nhà khoa h(cid:12)c. Nh(cid:25)ng ch(cid:10)(cid:6)ng trình Electronic library (cid:7)(cid:10)(cid:26)c xây d(cid:13)ng d(cid:13)a trên nh(cid:25)ng chu5n th(cid:17)ng nh#t do các h(cid:23)i (cid:7)1ng, t. ch(cid:27)c l(cid:20)n trên th(cid:8) gi(cid:20)i l(cid:14)p ra. M(cid:23)t s(cid:17) t. ch(cid:27)c (cid:7)(cid:19)nh chu5n l(cid:20)n trên gi(cid:20)i nh(cid:10) W3C (World Wide Web Consortium), ISO (International (National Organization for Standardization), NISO Information Standards Organization ),… . Có nhi(cid:31)u chu5n cho nhi(cid:31)u khía c(cid:11)nh khác nhau c$a vi(cid:9)c l(cid:10)u tr(cid:25) và truy c(cid:14)p thông tin (cid:7)i(cid:9)n t%, bao g1m các chu5n v(cid:31) thu h1i thông tin (Information 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 61 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh Retrieval Standard), thao tác gi(cid:25)a các ph(cid:2)n (Interoperability), (cid:7)(cid:19)nh d(cid:11)ng tài nguyên, (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc nh(cid:14)n d(cid:11)ng tài nguyên, mô t(cid:5) tài nguyên,… Sau (cid:7)ây là m(cid:23)t s(cid:17) chu5n s% d!ng trong eLib liên quan (cid:7)(cid:8)n v#n (cid:7)(cid:31) truy c(cid:14)p thông tin (cid:7)i(cid:9)n t%: (cid:3) Chu,n v(cid:22) thu h.i thông tin: Ki(cid:28)u chu5n này cho phép thông tin gi(cid:25)a các h(cid:9) th(cid:17)ng khác nhau, làm cho thu(cid:14)n ti(cid:9)n trong vi(cid:9)c khám phá và truy c(cid:14)p thông tin (cid:7)i(cid:9)n t%. Ví d! nh(cid:10) chu5n thu h1i thông tin ISO 23950 (t(cid:10)(cid:6)ng (cid:7)(cid:10)(cid:6)ng v(cid:20)i ANSI Z39.50) (cid:7)(cid:19)nh ngh a m(cid:23)t h(cid:10)(cid:20)ng chu5n cho hai máy tính liên l(cid:11)c và chia s, thông tin v(cid:20)i nhau. Nó (cid:7)ã (cid:7)(cid:10)(cid:26)c thi(cid:8)t k(cid:8) (cid:7)(cid:28) h(cid:15) tr(cid:26) khám phá tài nguyên và thu h1i tài nguyên c$a nh(cid:25)ng tài li(cid:9)u “full-text”, d(cid:25) li(cid:9)u m!c l!c, các hình (cid:5)nh và multimedia. Chu5n này d(cid:13)a trên ki(cid:8)n trúc client-server và (cid:7)(cid:23)c l(cid:14)p v(cid:20)i các h(cid:9) th(cid:17)ng c! th(cid:28), hoàn toàn (cid:7)i(cid:31)u hành trên Internet. Z39.50: Z39.50 là m(cid:23)t trong m(cid:23)t nhóm các chu5n (cid:7)(cid:10)(cid:26)c s(cid:5)n xu#t (cid:7)(cid:28) làm cho d- dàng k(cid:8)t n(cid:17)i các h(cid:9) th(cid:17)ng máy tính. Chu5n này ch& ra các (cid:7)(cid:19)nh d(cid:11)ng và th$ t!c chi ph(cid:17)i vi(cid:9)c trao (cid:7).i các thông (cid:7)i(cid:9)p gi(cid:25)a client và server, cho phép ng(cid:10)(cid:4)i dùng có th(cid:28) tìm ki(cid:8)m các c(cid:6) s(cid:3) d(cid:25) li(cid:9)u t(cid:30) xa, nh(cid:14)n di(cid:9)n các dòng d(cid:25) li(cid:9)u có (cid:7)(cid:19)nh rõ các chu5n, và thu h1i m(cid:23)t vài hay t#t c(cid:5) các dòng (cid:7)(cid:10)(cid:26)c nh(cid:14)n di(cid:9)n và có liên quan, c! th(cid:28) v(cid:20)i vi(cid:9)c tìm ki(cid:8)m và thu h1i thông tin trong c(cid:6) s(cid:3) d(cid:25) li(cid:9)u. M(cid:23)t trong nh(cid:25)ng thu(cid:14)n l(cid:26)i l(cid:20)n trong vi(cid:9)c s% d!ng Z39.50 là nó cho phép truy c(cid:14)p nh(cid:10) nhau (cid:7)(cid:8)n m(cid:23)t s(cid:17) l(cid:10)(cid:26)ng l(cid:20)n ngu1n thông tin thay (cid:7).i khác nhau. Z39.50 th(cid:30)a nh(cid:14)n r0ng vi(cid:9)c thu h1i thông tin g1m hai thành ph(cid:2)n chính – ch(cid:12)n thông tin d(cid:13)a trên nh(cid:25)ng tiêu chu5n và thu h1i thông tin (cid:7)ó, và nó cung c#p m(cid:23)t ngôn ng(cid:25) chung cho c(cid:5) hai hành (cid:7)(cid:23)ng (cid:7)ó. Z39.50 chu5n hoá cách x% s(cid:13) mà trong (cid:7)ó client và server thông tin v(cid:20)i nhau và ho(cid:11)t (cid:7)(cid:23)ng ngay khi có nh(cid:25)ng khác bi(cid:9)t gi(cid:25)a các h(cid:9) th(cid:17)ng máy tính, các công c! tìm ki(cid:8)m và các c(cid:6) s(cid:3) d(cid:25) li(cid:9)u. EDI (Electronic Data Interchange) EDI (cid:7)(cid:10)(cid:26)c bi(cid:8)t (cid:7)(cid:8)n nh(cid:10) m(cid:23)t chu5n công ngh(cid:9) thông tin qu(cid:17)c gia. ( EDI, d(cid:25) li(cid:9)u mà theo truy(cid:31)n th(cid:17)ng (cid:7)(cid:10)(cid:26)c chuy(cid:28)n vào trong các tài li(cid:9)u gi#y thì (cid:7)(cid:10)(cid:26)c truy(cid:31)n hay 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 62 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh (cid:7)(cid:10)(cid:26)c thông tin m(cid:23)t cách (cid:7)i(cid:9)n t% tùy vào các lu(cid:14)t và các (cid:7)(cid:19)nh d(cid:11)ng (cid:7)(cid:10)(cid:26)c thi(cid:8)t l(cid:14)p. D(cid:25) (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc li(cid:9)u liên (cid:7)(cid:20)i v(cid:20)i m(cid:15)i ki(cid:28)u c$a tài li(cid:9)u ch(cid:27)c n(cid:18)ng, ví d! nh(cid:10) b(cid:5)ng mua bán hay hoá (cid:7)(cid:6)n, (cid:7)(cid:10)(cid:26)c v(cid:14)n chuy(cid:28)n l(cid:21)n nhau nh(cid:10) là m(cid:23)t thông (cid:7)i(cid:9)p (cid:7)i(cid:9)n t%. D(cid:25) li(cid:9)u (cid:7)ã (cid:7)(cid:19)nh d(cid:11)ng có th(cid:28) (cid:7)(cid:10)(cid:26)c v(cid:14)n chuy(cid:28)n t(cid:30) ng(cid:10)(cid:4)i t(cid:11)o ra (cid:7)(cid:8)n ng(cid:10)(cid:4)i nh(cid:14)n thông qua thông tin liên l(cid:11)c b0ng cáp hay v(cid:14)n chuy(cid:28)n v(cid:14)t lí vào trong thi(cid:8)t b(cid:19) l(cid:10)u tr(cid:25) (cid:7)i(cid:9)n t%. EDI (cid:7)(cid:10)a (cid:7)(cid:8)n m(cid:23)t chu(cid:15)i các thông (cid:7)i(cid:9)p gi(cid:25)a hai n(cid:6)i, ví d! ng(cid:10)(cid:4)i mua và ng(cid:10)(cid:4)i bán, m(cid:15)i ng(cid:10)(cid:4)i có th(cid:28) xem nh(cid:10) là ng(cid:10)(cid:4)i t(cid:11)o ra hay ng(cid:10)(cid:4)i nh(cid:14)n. Các thông (cid:7)i(cid:9)p t(cid:30) ng(cid:10)(cid:4)i mua (cid:7)(cid:8)n ng(cid:10)(cid:4)i bán s* bao g1m, ví d! nh(cid:10) d(cid:25) li(cid:9)u c(cid:2)n thi(cid:8)t cho yêu c(cid:2)u (cid:7)(cid:17)i v(cid:20)i s(cid:13) trích d(cid:21)n (request for quotation_ RFQ), các biên lai mua bán, các thông báo vi(cid:9)c v(cid:14)n chuy(cid:28)n tàu thuy(cid:31)n, và các hoá (cid:7)(cid:6)n. Vi(cid:9)c th(cid:13)c thi c$a EDI yêu c(cid:2)u vi(cid:9)n s% d!ng c$a m(cid:23)t h(cid:12) các chu5n liên k(cid:8)t v(cid:20)i nhau. H(cid:12) chu5n này ph(cid:5)i bao g1m các chu5n cho các ki(cid:28)u thông (cid:7)i(cid:9)p (c/ng (cid:7)(cid:10)(cid:26)c g(cid:12)i là các “nhóm giao d(cid:19)ch” _ “transaction set”), và cho vi(cid:9)c v(cid:14)n chuy(cid:28)n th(cid:10), các y(cid:8)u t(cid:17) d(cid:25) li(cid:9)u, và các chu(cid:15)i c$a các y(cid:8)u t(cid:17) d(cid:25) li(cid:9)u (cid:7)(cid:10)(cid:26)c s(cid:16)p x(cid:8)p g(cid:12)i là các segment d(cid:25) li(cid:9)u. M(cid:23)t chu5n thông (cid:7)i(cid:9)p hay chu5n transaction set (cid:7)(cid:19)nh ngh a chu(cid:15)i các segment d(cid:25) li(cid:9)u mà t(cid:11)o thành thông (cid:7)i(cid:9)p và transaction set (cid:7)ó. Th(cid:10) m!c segment d(cid:25) li(cid:9)u li(cid:9)t kê t#t c(cid:5) các segment d(cid:25) li(cid:9)u, và (cid:7)(cid:19)nh ngh a (cid:7)(cid:19)nh danh và chu(cid:15)i c$a các y(cid:8)u t(cid:17) d(cid:25) li(cid:9)u t(cid:11)o nên nó. T(cid:13) (cid:7)i(cid:28)n y(cid:8)u t(cid:17) d(cid:25) li(cid:9)u cung c#p các chu5n c$a t#t c(cid:5) các y(cid:8)u t(cid:17) d(cid:25) li(cid:9)u. Vi(cid:9)c v(cid:14)n chuy(cid:28)n th(cid:10) cung c#p thông tin (cid:7)i(cid:31)u khi(cid:28)n v(cid:31) các thông (cid:7)i(cid:9)p thêm vào cho các h(cid:9) th(cid:17)ng v(cid:14)n chuy(cid:28)n và ti(cid:8)p nh(cid:14)n. Vi(cid:9)c chu5n hoá c$a các (cid:7)(cid:19)nh d(cid:11)ng thông (cid:7)i(cid:9)p, và c$a các segment d(cid:25) li(cid:9)u và y(cid:8)u t(cid:17) d(cid:25) li(cid:9)u trong các thông (cid:7)i(cid:9)p (cid:7)ó, làm cho có th(cid:28) thu th(cid:14)p, tháo r(cid:4)i và x% lí các thông (cid:7)i(cid:9)p b0ng máy tính v(cid:20)i các k(cid:8)t qu(cid:5) có th(cid:28) có th(cid:28) (cid:7)oán tr(cid:10)(cid:20)c. ILL (Internet Loan Library) Nghi th(cid:27)c ILL (ISO 10160/1) (cid:7)(cid:10)(cid:26)c phát tri(cid:28)n (cid:7)(cid:28) gi(cid:25) nhi(cid:31)u giao d(cid:19)ch (cid:7)(cid:10)(cid:26)c liên k(cid:8)t bao g1m các ho(cid:11)t (cid:7)(cid:23)ng yêu c(cid:2)u tài li(cid:9)u g1m nhi(cid:31)u ng(cid:10)(cid:4)i tham gia. V(cid:31) khái ni(cid:9)m thì nó t(cid:10)(cid:6)ng (cid:7)(cid:10)(cid:6)ng v(cid:20)i EDI và bao g1m vi(cid:9)c cung c#p cho (cid:7)(cid:19)nh ngh a các data element (cid:7)(cid:10)(cid:26)c yêu c(cid:2)u, (cid:7)(cid:19)nh ngh a m(cid:23)t nhóm các thông (cid:7)i(cid:9)p và các m(cid:17)i quan h(cid:9) c$a 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 63 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh nó, và m(cid:23)t cú pháp cho vi(cid:9)c l(cid:14)p c#u trúc thông (cid:7)i(cid:9)p. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc Nghi th(cid:27)c ILL có v, nh(cid:10) có nhi(cid:31)u (cid:7)(cid:28) cung c#p các d(cid:19)ch v! yêu c(cid:2)u, (cid:7)"c bi(cid:9)t khi chúng tr(cid:3) nên phân tán nhi(cid:31)u h(cid:6)n. S(cid:13) truy(cid:31)n thông t(cid:30) h(cid:9) th(cid:17)ng này sang h(cid:9) th(cid:17)ng khác c$a các thông (cid:7)i(cid:9)p có c#u trúc cho phép m(cid:23)t ph(cid:11)m vi r(cid:23)ng l(cid:20)n các thi hành (cid:7)(cid:10)(cid:26)c t(cid:13) (cid:7)(cid:23)ng, và các th$ t!c b0ng tay hay ph(cid:17)i h(cid:26)p cho vi(cid:9)c theo v(cid:8)t, g(cid:12)i v(cid:31),… (cid:7)(cid:10)(cid:26)c t(cid:13) (cid:7)(cid:23)ng. Công d!ng c$a nó trong các d(cid:19)ch v! t(cid:10)(cid:6)ng tác (cid:7)(cid:17)i v(cid:20)i yêu c(cid:2)u các tài li(cid:9)u c(cid:2)n nghiên c(cid:27)u xa h(cid:6)n n(cid:25)a. (cid:3) Chu,n mã hoá tài nguyên: Nh(cid:25)ng chu5n này (cid:7)(cid:19)nh ngh a các ki(cid:28)u hi(cid:28)n th(cid:19) khác nhau c$a thông tin (cid:7)i(cid:9)n t%. Bao g1m các chu5n: o (cid:1)(cid:19)nh d(cid:11)ng mô t(cid:5) trang (ví d! postscript, PDF)
o (cid:1)(cid:19)nh d(cid:11)ng (cid:7)1 h(cid:12)a (ví d! TIFF, GIF, JPEG)
o Thông tin c#u trúc (SGML, HTML, XML)
o (cid:1)(cid:19)nh d(cid:11)ng hình (cid:5)nh (cid:7)(cid:23)ng và audio.
o Nén (ví d!: gzip, jar, tar, zip). (cid:3) Chu,n nh*n d4ng tài nguyên: G1m m(cid:23)t s(cid:17) chu5n sau: DOI (Digital Object Identifier) (cid:2) Digital Object Identifier là m(cid:23)t h(cid:9) th(cid:17)ng (cid:7)(cid:10)(cid:26)c phát tri(cid:28)n b(cid:3)i Bowker và CNRI (Corporation for National Research Initiative) (cid:3) US, theo m(cid:23)t yêu c(cid:2)u v(cid:31) các (cid:7)(cid:31) xu#t cho công ngh(cid:9) nh(cid:14)n d(cid:11)ng n(cid:23)i dung k(cid:29) thu(cid:14)t s(cid:17) (cid:7)(cid:10)(cid:26)c (cid:7)(cid:10)a ra b(cid:3)i Association of American Publishers. H(cid:9) th(cid:17)ng DOI có ba thành ph(cid:2)n: ph(cid:2)n (cid:7)(cid:19)nh danh, th(cid:10) m!c và c(cid:6) s(cid:3) d(cid:25) li(cid:9)u. H(cid:9) th(cid:17)ng này cho phép các b(cid:23) (cid:7)(cid:19)nh d(cid:11)ng qui (cid:7)(cid:19)nh nh(cid:25)ng m(cid:27)c khác nhau, và cho các h(cid:9) th(cid:17)ng khác (ví d! SICI, ISSN) (cid:7)(cid:10)(cid:26)c thêm vào. H(cid:9) th(cid:17)ng DOI có th(cid:28) (cid:7)(cid:10)(cid:26)c (cid:7)(cid:19)nh ngh a nh(cid:10) là “m(cid:23)t b(cid:23) nh(cid:14)n d(cid:11)ng duy nh#t có th(cid:28) gi(cid:5)i quy(cid:8)t (cid:7)(cid:10)(cid:26)c và nhi(cid:31)u m(cid:5)ng c$a d(cid:25) li(cid:9)u tr(cid:11)ng thái ki(cid:28)u k(cid:8)t h(cid:26)p trong m(cid:23)t c(cid:6) s(cid:3) 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 64 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh qu(cid:5)n lí thông tin”. Di-n t(cid:5) nh(cid:25)ng ph(cid:2)n c$a (cid:7)(cid:19)nh ngh a nh(cid:10) sau: (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc a. M(cid:23)t “b(cid:23) nh(cid:14)n d(cid:11)ng duy nh#t”: nhi(cid:9)m v! c$a DOI là duy nh#t (cid:7)(cid:17)i v(cid:20)i m(cid:23)t m(cid:5)ng c$a (cid:7)"c tính tri th(cid:27)c. (cid:1)(cid:19)nh ngh a c$a m(cid:5)ng này (cid:7)(cid:10)(cid:26)c ch& rõ b(cid:3)i m(cid:23)t s(cid:17) m(cid:5)ng chính c$a thông tin v(cid:31) nó (siêu d(cid:25) li(cid:9)u) mà thu(cid:23)c vào th(cid:28) lo(cid:11)i c! th(cid:28): dù th(cid:13)c th(cid:28) là m(cid:23)t bài báo hay m(cid:23)t video clip, ví d! nh(cid:10) v(cid:14)y. (cid:1)(cid:19)nh danh này là m(cid:23)t chu(cid:15)i không rõ ràng; nó không ch(cid:27)a b#t c(cid:27) tri th(cid:27)c cú pháp v(cid:31) th(cid:13)c th(cid:28) này. b. “có th(cid:28) gi(cid:5)i quy(cid:8)t (cid:7)(cid:10)(cid:26)c”; v(cid:20)i “d(cid:25) li(cid:9)u tr(cid:11)ng thái k(cid:8)t h(cid:26)p”: (cid:7)i sâu vào thông qua h(cid:9) th(cid:17)ng Internet t(cid:30) b(cid:23) nh(cid:14)n d(cid:11)ng (cid:7)ó (cid:7)(cid:8)n m(cid:23)t hay nhi(cid:31)u m(cid:5)ng c$a d(cid:25) li(cid:9)u k(cid:8)t h(cid:26)p. Nh(cid:25)ng m(cid:5)ng này bi(cid:28)u di-u tr(cid:11)ng thái hi(cid:9)n t(cid:11)i (giá tr(cid:19)) c$a m(cid:23)t s(cid:17) ki(cid:28)u d(cid:25) li(cid:9)u (ví d! nh(cid:10) m(cid:23)t URL). Nh(cid:25)ng m(cid:5)ng này c$a d(cid:25) li(cid:9)u có th(cid:28) hi(cid:28)n th(cid:19), hay d(cid:21)n (cid:7)(cid:8)n, các d(cid:19)ch v! s% d!ng DOI nh(cid:10) là m(cid:23)t (cid:7)i(cid:28)m th(cid:13)c th(cid:28). c. “m(cid:23)t c(cid:6) s(cid:3) qu(cid:5)n lí thông tin”: m(cid:23)t khi m(cid:23)t m(cid:5)ng d(cid:25) li(cid:9)u thu (cid:7)(cid:10)(cid:26)c do s(cid:13) phân tích, thì siêu d(cid:25) li(cid:9)u v(cid:31) th(cid:13)c th(cid:28) (cid:7)(cid:10)(cid:26)c (cid:7)(cid:19)nh danh có th(cid:28) thi hành v(cid:20)i siêu d(cid:25) li(cid:9)u t(cid:30) nh(cid:25)ng ngu1n khác (ví d! v(cid:31) ng(cid:25) c(cid:5)nh) (cid:7)(cid:28) xây d(cid:13)ng các d(cid:19)ch v! và các giao d(cid:19)ch t(cid:13) (cid:7)(cid:23)ng. Kh(cid:5) n(cid:18)ng thi hành này (cid:7)(cid:10)(cid:26)c hoàn t#t thông qua vi(cid:9)c qu(cid:5)n lí siêu d(cid:25) li(cid:9)u trong m(cid:23)t h(cid:10)(cid:20)ng (cid:7)(cid:10)(cid:26)c (cid:7)i(cid:31)u khi(cid:28)n, phù h(cid:26)p v(cid:20)i m(cid:23)t ki(cid:8)n trúc thi hành mà làm cho DOI có th(cid:28) (cid:7)(cid:10)a ra nh(cid:25)ng (cid:27)ng d!ng (cid:3) m(cid:23)t b(cid:23) nh(cid:14)n d(cid:11)ng liên t!c (cid:7)(cid:6)n gi(cid:5)n. SICI (cid:2) Chu5n SICI là chu5n ANSI/NISO Z39.56-1996 (cid:7)(cid:19)nh ngh a nh(cid:25)ng lu(cid:14)t l(cid:9) v(cid:31) mã dùng nh(cid:14)n d(cid:11)ng duy nh#t chu(cid:15)i các item (ví d! nh(cid:10) các s(cid:17) báo) và m(cid:15)i thành ph(cid:2)n (ví d! nh(cid:10) bài báo) ch(cid:27)a trong m(cid:23)t chu(cid:15)i. SICI là t(cid:30) vi(cid:8)t t(cid:16)t c$a Serial Item and Contribution Identifier và (cid:7)(cid:10)(cid:26)c s% d!ng trong chu5n này (cid:7)(cid:28) ch& mã c$a chính nó. Chu5n này (cid:7)(cid:10)(cid:26)c (cid:7)(cid:19)nh ngh a cho vi(cid:9)c s% d!ng v(cid:20)i chu(cid:15)i các xu#t b(cid:5)n trong t#t c(cid:5) các (cid:7)(cid:19)nh d(cid:11)ng. (cid:1)(cid:17)i v(cid:20)i m!c (cid:7)ích c$a chu5n này, m(cid:23)t chu(cid:15)i (cid:7)(cid:10)(cid:26)c (cid:7)(cid:19)nh ngh a nh(cid:10) là 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 65 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh m(cid:23)t xu#t b(cid:5)n phát hành trong nh(cid:25)ng ph(cid:2)n liên t!c (cid:3) nh(cid:25)ng kho(cid:5)ng tr(cid:17)ng (cid:7)(cid:31)u (cid:7)"n hay (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc không (cid:7)(cid:31)u (cid:7)"n, mang b(cid:14)c s(cid:17) và/ho"c th(cid:27) t(cid:13) th(cid:4)i gian (numerical and/or chronological designation), và có xu h(cid:10)(cid:20)ng (cid:7)(cid:10)(cid:26)c ti(cid:8)p t!c vô h(cid:11)n. SICI có xu h(cid:10)(cid:20)ng (cid:7)(cid:10)(cid:26)c t(cid:11)o ra và s% d!ng b(cid:3)i các thành viên c$a c(cid:23)ng (cid:7)1ng th(cid:10) m!c tham gia vào nh(cid:25)ng ch(cid:27)c n(cid:18)ng k(cid:8)t h(cid:26)p v(cid:20)i vi(cid:9)c qu(cid:5)n lí c$a các chu(cid:15)i và các ph(cid:2)n mà chúng ch(cid:27)a (cid:7)(cid:13)ng, các ch(cid:27)c n(cid:18)ng nh(cid:10) s(cid:16)p th(cid:27) t(cid:13), b. sung vào th(cid:10) vi(cid:9)n, yêu c(cid:2)u, thu ti(cid:31)n nhu(cid:14)n bút, qu(cid:5)n lí quy(cid:31)n, thu h1i tr(cid:13)c tuy(cid:8)n, liên k(cid:8)t c(cid:6) s(cid:3) d(cid:25) li(cid:9)u, và phân phát tài li(cid:9)u. B(cid:23) nh(cid:14)n d(cid:11)ng (cid:7)(cid:10)(cid:26)c xây d(cid:13)ng theo chu5n này (cid:7)(cid:10)(cid:26)c s% d!ng trong nh(cid:25)ng (cid:27)ng d!ng: Electronic Data Interchange (EDI), mã v(cid:11)ch Serial Industry Systems Advisory Committee (SISAC), truy v#n Z39.50, Uniform Resource Names (URNs), th(cid:10) (cid:7)i(cid:9)n t%, và b(cid:5)n ghi c$a con ng(cid:10)(cid:4)i trong in #n. Chu5n này không (cid:7)(cid:19)nh ngh a b#t c(cid:27) h(cid:9) th(cid:17)ng v(cid:14)n chuy(cid:28)n nào rõ r(cid:9)t hay ý ngh a c$a vi(cid:9)c th(cid:13)c thi. SICI s% d!ng chu(cid:15)i s(cid:17) chu5n qu(cid:17)c t(cid:8) (International Standard Serial Number _ ISSN) (cid:7)(cid:28) (cid:7)(cid:19)nh nh(cid:14)n di(cid:9)n chu(cid:15)i tiêu (cid:7)(cid:31). Do (cid:7)ó, (cid:7)(cid:28) s% d!ng chu5n này trong vi(cid:9)c xây d(cid:13)ng m(cid:23)t item hay góp ph(cid:2)n nh(cid:14)n di(cid:9)n v(cid:14)t ch#t (cid:7)(cid:10)(cid:26)c phát sinh trong chu(cid:15)i này, thì chu(cid:15)i này ph(cid:5)i (cid:7)(cid:10)(cid:26)c gán vào trong m(cid:23)t ISSN. Chu5n SICI là m(cid:23)t s(cid:13) k(cid:8)t h(cid:26)p c$a các segment (cid:7)(cid:10)(cid:26)c (cid:7)(cid:19)nh ngh a, t#t các chúng (cid:7)(cid:31)u (cid:7)(cid:10)(cid:26)c yêu c(cid:2)u. Nh(cid:25)ng segment này là: a. Item Segment, các data element c(cid:2)n mô t(cid:5) chu(cid:15)i item (ISSN, b(cid:5)ng niên (cid:7)(cid:11)i, b(cid:5)ng li(cid:9)t kê) b. Contribution Segment, các data element c(cid:2)n nh(cid:14)n di(cid:9)n các ph(cid:2)n trong m(cid:23)t item (v(cid:19) trí, mã tiêu (cid:7)(cid:31), và nh(cid:25)ng s(cid:16)p x(cid:8)p th(cid:27) t(cid:13) theo s(cid:17) trong m(cid:23)t tr(cid:10)(cid:4)ng h(cid:26)p c! th(cid:28) c$a SICI). c. Control Segment, các data element c(cid:2)n ghi l(cid:11)i nh(cid:25)ng element qu(cid:5)n tr(cid:19) (cid:7)ó mà (cid:7)(cid:19)nh ngh a s(cid:13) (cid:7)ánh giá, phiên b(cid:5)n, và (cid:7)(cid:19)nh d(cid:11)ng c$a bi(cid:28)u di-n mã. (cid:1)ây là segment quan tr(cid:12)ng nh#t c$a SICI. S(cid:13) phiên d(cid:19)ch và x% lí (cid:7)(cid:10)(cid:26)c (cid:7)(cid:19)nh ngh a b(cid:3)i segment (cid:7)i(cid:31)u khi(cid:28)n này. 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 66 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh Ví d!: (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc (cid:3) Chu,n mô t(cid:19) tài nguyên: Chu5n này có th(cid:28) làm cho d- dàng khám phá tài nguyên hi(cid:9)u qu(cid:5). Bao g1m: (cid:2) AACR2_ m(cid:23)t t(cid:14)p các mã (cid:7)(cid:10)(cid:26)c s% d!ng cho vi(cid:9)c mô t(cid:5) các tài li(cid:9)u th(cid:10) vi(cid:9)n (cid:2) Dublin Core_ m(cid:23)t chu5n siêu d(cid:25) li(cid:9)u mô t(cid:5) (cid:7)(cid:10)(cid:26)c phát tri(cid:28)n cho vi(cid:9)c mô t(cid:5) tài nguyên trên Internet. ((cid:1)(cid:10)(cid:26)c mô t(cid:5) bên trên). (cid:2) MARC (Machine-Readable Cataloguing)_ m(cid:23)t chu5n siêu d(cid:25) li(cid:9)u mô t(cid:5) phát tri(cid:28)n cho m!c (cid:7)ích m!c l!c. Chu5n MARC (cid:7)ang (cid:7)(cid:10)(cid:26)c giám sát b(cid:3)i h(cid:23)i (cid:7)1ng thông tin th(cid:10) m!c có th(cid:28) (cid:7)(cid:12)c b0ng máy (Machine-Readable Bibliographic Information Committee) k(cid:8)t h(cid:26)p v(cid:20)i v(cid:18)n phòng phát tri(cid:28)n m(cid:11)ng và các chu5n MARC (cid:3) th(cid:10) vi(cid:9)n c$a c(cid:6) quan l(cid:14)p pháp Hoa Kì. Các (cid:7)(cid:19)nh d(cid:11)ng MARC là các chu5n cho vi(cid:9)c bi(cid:28)u di-n và truy(cid:31)n thông c$a thông tin th(cid:10) m!c và quan h(cid:9) trong vi(cid:9)c thi hành có th(cid:28) (cid:7)(cid:12)c b0ng máy “Dòng MARC ch(cid:27)a m(cid:23)t ch& d(cid:21)n (cid:7)(cid:8)n d(cid:25) li(cid:9)u c$a nó, hay m(cid:23)t ít các “bi(cid:28)n ch& (cid:7)(cid:10)(cid:4)ng”(“signposts”), tr(cid:10)(cid:20)c m(cid:15)i m(cid:5)ng th(cid:10) m!c c$a thông tin. Có ba lo(cid:11)i n(cid:23)i dung MARC ch& rõ: các th,, các b(cid:23) mã lãnh v(cid:13)c con, và các ch& th(cid:19). Thu(cid:14)n l(cid:26)i trong vi(cid:9)c s% d!ng siêu d(cid:25) li(cid:9)u MARC là chúng không ph(cid:5)i phát tri(cid:28)n ph(cid:10)(cid:6)ng pháp ch& rõ l nh v(cid:13)c c$a vi(cid:9)c t. ch(cid:27)c thông tin th(cid:10) m!c, thông tin này l(cid:10)u công vi(cid:9)c và cho phép d(cid:25) li(cid:9)u danh m!c có th(cid:28) c(cid:23)ng tác và trao (cid:7).i v(cid:20)i các th(cid:10) vi(cid:9)n khác. “S% d!ng chu5n MARC ng(cid:18)n ch"n vi(cid:9)c l"p l(cid:11)i công vi(cid:9)c và cho phép các 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 67 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh th(cid:10) vi(cid:9)n chia s, t(cid:17)t h(cid:6)n các tài nguyên th(cid:10) m!c”. MARC là m(cid:23)t chu5n công nghi(cid:9)p (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc di(cid:9)n r(cid:23)ng mà m!c (cid:7)ích chính c$a nó là (cid:7)(cid:10)a vi(cid:9)c truy(cid:31)n (cid:7)(cid:11)t c$a thông tin trong m(cid:23)t h(cid:10)(cid:20)ng chu5n, b0ng cách (cid:7)ó làm cho d- dàng truy c(cid:14)p th(cid:10)(cid:4)ng xuyên (cid:7)(cid:8)n các dòng d(cid:25) (cid:2) EDA (Encoded Archival Description)_ (cid:7)(cid:10)(cid:26)c s% d!ng b(cid:3)i các chuyên li(cid:9)u. viên l(cid:10)u tr(cid:25) v(cid:18)n th(cid:10) cho vi(cid:9)c mã hoá nh(cid:25)ng giúp (cid:7)(cid:22) tìm ki(cid:8)m. EAD là m(cid:23)t chu5n (cid:7)(cid:10)(cid:26)c s% d!ng (cid:7)(cid:28) mã hoà nh(cid:25)ng giúp (cid:7)(cid:22) trong vi(cid:9)c tìm ki(cid:8)m s% d!ng SGML và/hay XML. M!c (cid:7)ích c$a vi(cid:9)c s% d!ng EAD là th(cid:13)c hi(cid:9)n l(cid:10)u tr(cid:25) tài nguyên t(cid:30) nhi(cid:31)u c(cid:6) s(cid:3) có kh(cid:5) n(cid:18)ng truy c(cid:14)p nhi(cid:31)u h(cid:6)n (cid:7)(cid:8)n ng(cid:10)(cid:4)i dùng. EAD c/ng khuy(cid:8)n khích c(cid:23)ng (cid:7)1ng l(cid:10)u tr(cid:25) v(cid:18)n th(cid:10) tán thành các chu5n c#u trúc d(cid:25) li(cid:9)u và làm vi(cid:9)c v(cid:20)i nhau trong s(cid:13) hình thành c$a các h(cid:23)i (cid:7)1ng và các c(cid:6) s(cid:3) d(cid:25) li(cid:9)u th(cid:17)ng nh#t. Hi(cid:9)n t(cid:11)i, th(cid:10) vi(cid:9)n c$a v(cid:18)n phòng chu5n MARC và phát tri(cid:28)n m(cid:11)ng c$a c(cid:6) quan l(cid:14)p pháp Hoa K3 ho(cid:11)t (cid:7)(cid:23)ng nh(cid:10) là c(cid:6) quan b(cid:5)o d(cid:10)(cid:22)ng cho EAD và cung c#p tài li(cid:9)u chính th(cid:27)c cho trang web c$a nó. C(cid:23)ng (cid:7)1ng chuyên viên l(cid:10)u tr(cid:25) v(cid:18)n th(cid:10) c$a M(cid:29) ho(cid:11)t (cid:7)(cid:23)ng nh(cid:10) ng(cid:10)(cid:4)i ch$ c$a EAD, và bàn tròn SAA EAD có trách nhi(cid:9)m ti(cid:8)p t!c giám sát và phát tri(cid:28)n. Giúp (cid:7)(cid:22) tìm ki(cid:8)m là gì? Nh(cid:25)ng giúp (cid:7)(cid:22) tìm ki(cid:8)m là nh(cid:25)ng h(cid:10)(cid:20)ng d(cid:21)n chi ti(cid:8)t, nó mô t(cid:5) và sáng tác nh(cid:25)ng s(cid:10)u t(cid:14)p c$a các tài li(cid:9)u gi#y cá nhân ch(cid:10)a xu#t b(cid:5)n, các h1 s(cid:6) t. ch(cid:27)c, và hình (cid:5)nh. Chúng giúp ng(cid:10)(cid:4)i nghiên c(cid:27)u nh(cid:14)n d(cid:11)ng và (cid:7)(cid:19)nh v(cid:19) các h(cid:23)p hay các th(cid:10) m!c quan tâm (cid:7)(cid:10)(cid:26)c yêu c(cid:2)u cho công vi(cid:9)c nghiên c(cid:27)u. Chúng c/ng cung c#p thông tin c(cid:6) b(cid:5)n v(cid:31) t. ch(cid:27)c, ng(cid:10)(cid:4)i, hay gia (cid:7)ình (cid:7)ã t(cid:11)o ra các tài li(cid:9)u hay hình (cid:5)nh, m(cid:23)t t.ng quan c$a nh(cid:25)ng s(cid:10)u t(cid:14)p và vi(cid:9)c s(cid:16)p x(cid:8)p c$a chúng, và m(cid:23)t danh sách l(cid:10)u tr(cid:25) chi ti(cid:8)t. Giúp (cid:7)(cid:22) tìm ki(cid:8)m là nh(cid:25)ng công c! c$a vi(cid:9)c mô t(cid:5) l(cid:10)u tr(cid:25). 2.3.3. Tìm hi6u eDoc 2.3.3.1. Khái ni&m Edoc là t(cid:30) vi(cid:8)t t(cid:16)t c$a “electronic document” hay còn g(cid:12)i là digital document. (cid:1)ây là m(cid:23)t khái ni(cid:9)m mang tính t.ng quát, ch& t#t c(cid:5) nh(cid:25)ng tài li(cid:9)u trên 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 68 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh web, ch+ng h(cid:11)n nh(cid:10) các trang tin t(cid:27)c, t(cid:11)p chí (cid:7)i(cid:9)n t%, các tài li(cid:9)u chuyên ngành hay (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc các sách (cid:7)i(cid:9)n t%. Edoc (cid:7)(cid:10)(cid:26)c xem là ngu1n tài nguyên chính cho các (cid:7)(cid:31) án eLib, eLearning. Nh(cid:25)ng (cid:7)(cid:31) án này t(cid:14)p h(cid:26)p, t. ch(cid:27)c l(cid:11)i m(cid:23)t cách logic các eDoc xoay quanh m(cid:23)t ch$ (cid:7)(cid:31) c! th(cid:28) nào (cid:7)ó nh0m m!c (cid:7)ích giúp cho ng(cid:10)(cid:4)i dùng có th(cid:28) d- dàng tìm th#y các tài li(cid:9)u (cid:7)i(cid:9)n t% trong hàng v(cid:11)n tài li(cid:9)u, ph!c v! cho nhu c(cid:2)u nghiên c(cid:27)u c$a ng(cid:10)(cid:4)i dùng. 2.3.3.2. Ph4m vi s(cid:23) d(cid:24)ng c a eDoc eDoc (cid:7)(cid:10)(cid:26)c s% d!ng/ áp d!ng trong t#t c(cid:5) các ho(cid:11)t (cid:7)(cid:23)ng, n(cid:6)i nào có ph(cid:2)n m(cid:31)m và các thi(cid:8)t b(cid:19) công ngh(cid:9) (cid:7)(cid:10)(cid:26)c (cid:27)ng d!ng (cid:7)(cid:28) t(cid:11)o, l(cid:10)u tr(cid:25), chuy(cid:28)n (cid:7).i và nh(cid:14)n thông tin thì (cid:3) (cid:7)ó c(cid:2)n có eDoc. 2.3.3.3. Các yêu c+u (cid:30)(cid:26)i v(cid:20)i eDocs - eDoc (cid:7)(cid:10)(cid:26)c t(cid:11)o, s% d!ng, chuy(cid:28)n (cid:7).i và l(cid:10)u tr(cid:25) v(cid:20)i s(cid:13) h(cid:15) tr(cid:26) c$a các thi(cid:8)t b(cid:19) công ngh(cid:9) và s(cid:13) h(cid:15) tr(cid:26) c$a các ph(cid:2)n m(cid:31)m. - eDoc ph(cid:5)i (cid:7)(cid:10)(cid:26)c bi(cid:28)u di-n trong hình th(cid:27)c (cid:7)(cid:2)y (cid:7)$ ngh a nh#t
- eDoc ph(cid:5)i có c#u trúc phù h(cid:26)p, ph. d!ng (cid:7)(cid:10)(cid:26)c nhi(cid:31)u ng(cid:10)(cid:4)i s% d!ng, và có các thu(cid:23)c tính cho phép xác nh(cid:14)n tính xác th(cid:13)c c$a nó. 2.3.3.4. C(u trúc c a eDoc - Electronic document bao g1m 2 ph(cid:2)n không th(cid:28) tách r(cid:4)i (cid:7)(cid:10)(cid:26)c : general part và especial part. - General part bao g1m thông tin th(cid:28) hi(cid:9)n n(cid:23)i dung c$a tài li(cid:9)u. N(cid:8)u m(cid:23)t tài li(cid:9)u (cid:7)(cid:10)(cid:26)c g(cid:3)i (cid:7)(cid:8)n m(cid:23)t ng(cid:10)(cid:4)i xác (cid:7)(cid:19)nh, thông tin v(cid:31) ng(cid:10)(cid:4)i này - Especial part g1m m(cid:23)t ho"c nhi(cid:31)u ch(cid:25) ký (cid:7)i(cid:9)n t%. (cid:7)(cid:10)(cid:26)c th(cid:28) hi(cid:9)n trong ph(cid:2)n general part. 2.3.3.5. B(cid:19)o m*t trong eDoc Khi m(cid:23)t t. ch(cid:27)c mu(cid:17)n th(cid:13)c hi(cid:9)n các giao d(cid:19)ch th(cid:10)(cid:6)ng m(cid:11)i tr(cid:13)c tuy(cid:8)n, vi(cid:9)c b(cid:5)o (cid:7)(cid:5)m an toàn và bí m(cid:14)t c$a thông tin (cid:7)(cid:10)(cid:26)c s% d!ng trong su(cid:17)t các giao d(cid:19)ch, 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 69 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh c/ng nh(cid:10) vi(cid:9)c cung c#p xác th(cid:14)t và toàn v(cid:24)n thông tin là r#t c(cid:2)n thi(cid:8)t. B(cid:3)i vì nhi(cid:31)u (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc giao d(cid:19)ch t(cid:13) (cid:7)(cid:23)ng d(cid:13)a trên tài li(cid:9)u (cid:7)i(cid:9)n t%, lo(cid:11)i tài li(cid:9)u này ch(cid:27)a (cid:7)(cid:13)ng thông tin r#t nh(cid:11)y c(cid:5)m, các t. ch(cid:27)c ph(cid:5)i b(cid:5)o (cid:7)(cid:5)m hoàn toàn nh(cid:25)ng tài li(cid:9)u này. Nhi(cid:31)u gi(cid:5)i pháp b(cid:5)o m(cid:14)t thông tin c(cid:17) g(cid:16)ng b(cid:5)o v(cid:9) các tài li(cid:9)u (cid:7)i(cid:9)n t% ch& b(cid:5)o (cid:7)(cid:5)m (cid:7)(cid:10)(cid:26)c (cid:3) m(cid:27)c l(cid:10)u tr(cid:25) c!c b(cid:23) ho"c trong su(cid:17)t quá trình chu4ên (cid:7).i. Tuy nhiên các gi(cid:5)i pháp b(cid:5)o m(cid:14)t này không cung c#p ch(cid:8) (cid:7)(cid:23) b(cid:5)o v(cid:9) cho toàn b(cid:23) chu trình s(cid:17)ng c$a m(cid:23)t tài li(cid:9)u (cid:7)i(cid:9)n t%. Khi m(cid:23)t tài li(cid:9)u (cid:7)(cid:10)(cid:26)c chu4ên (cid:7)(cid:8)n cho ng(cid:10)(cid:4)i nh(cid:14)n thì ch(cid:8) (cid:7)(cid:23) b(cid:5)o v(cid:9) cho nó c/ng m#t (cid:7)i, và tài li(cid:9)u này có th(cid:28) (cid:7)(cid:10)(cid:26)c chu4ên (cid:7)(cid:8)n ho"c (cid:7)(cid:10)(cid:26)c xem m(cid:23)t cách c(cid:17) ý hay vô tình b(cid:3)i ng(cid:10)(cid:4)i nh(cid:14)n mà không th(cid:28) nào ch(cid:27)ng th(cid:13)c (cid:7)(cid:10)(cid:26)c ng(cid:30)(cid:6)i này có (cid:7)(cid:10)(cid:26)c quy(cid:31)n chuy(cid:28)n ti(cid:8)p ho"c xem hay không? M(cid:23)t gi(cid:5)i pháp hi(cid:9)u qu(cid:5) h(cid:6)n nhi(cid:31)u là b(cid:5)o v(cid:9) tài li(cid:9)u b0ng cách gán các thông s(cid:17) b(cid:5)o m(cid:14)t mà (cid:7)(cid:10)(cid:26)c g(cid:3)i kèm v(cid:20)i nó. Sáu tiêu chu5n c(cid:2)n ph(cid:5)i có (cid:7)(cid:28) cung c#p ch(cid:8) (cid:7)(cid:23) b(cid:5)o v(cid:9) hi(cid:9)u qu(cid:5) h(cid:6)n cho m(cid:23)t tài li(cid:9)u (cid:7)i(cid:9)n t% trong su(cid:17)t chu trình s(cid:17)ng c$a nó: 1. Confidentiality 2. Authorization 3. Accountability 4. Integrity 5. Authenticity 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 70 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh 6. Non-repudiation (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc 2.3.3.6. (cid:12)ánh giá Hình 12 : Tiêu chu,n (cid:30)ánh giá tính b(cid:19)o m*t c a eDoc Cho (cid:7)(cid:8)n hi(cid:9)n t(cid:11)i eDoc v(cid:21)n ch(cid:10)a th(cid:14)t s(cid:13) có m(cid:23)t chu5n nào . Tài li(cid:9)u eDoc trên Internet vô cùng phong phú, (cid:7)a d(cid:11)ng, ch(cid:27)a (cid:7)(cid:13)ng m(cid:23)t l(cid:10)(cid:26)ng thông tin kh.ng l1 trên web. Tuy nhiên, c/ng vì nó quá phong phú, (cid:7)a d(cid:11)ng nên th(cid:14)t s(cid:13) khó kh(cid:18)n cho vi(cid:9)c (cid:7)(cid:31) xu#t ra m(cid:23)t chu5n (cid:7)(cid:28) t#t c(cid:5) các tài li(cid:9)u eDoc tuân theo. Trong khi (cid:7)ó, eLearning, eLib v(cid:20)i s(cid:17) l(cid:10)(cid:26)ng tài li(cid:9)u khiêm t(cid:17)n h(cid:6)n nh(cid:10)ng th(cid:13)c s(cid:13) (cid:7)ã tuân theo các chu5n riêng c$a mình và (cid:7)(cid:10)(cid:26)c m(cid:12)i ng(cid:10)(cid:4)i ch#p nh(cid:14)n. V(cid:20)i nh(cid:25)ng 2.4. M(cid:25)t s(cid:26) v(n (cid:30)(cid:22) trong x(cid:23) lí ngôn ng% t# nhiên: chu5n riêng c$a mình, tài li(cid:9)u eLearning, eLib d- dàng ti(cid:8)n (cid:7)(cid:8)n v(cid:20)i web ng(cid:25) ngh a. X% lí ngôn ng(cid:25) t(cid:13) nhiên (Natural Language Processing) là bài toán lí thú nh#t và c/ng khó kh(cid:18)n nh#t c$a ngành máy tính t(cid:30) h(cid:6)n 50 n(cid:18)m qua. ’(cid:20)c m(cid:6) dùng máy tính (cid:7)(cid:28) x% lí ngôn ng(cid:25), mu(cid:17)n máy tính hi(cid:28)u (cid:7)(cid:10)(cid:26)c ngôn ng(cid:25) t(cid:13) nhiên nh(cid:10) con ng(cid:10)(cid:4)i, (cid:7)ã g"p ph(cid:5)i tr(cid:3) ng(cid:11)i l(cid:20)n nh#t t(cid:30) phía ngôn ng(cid:25), (cid:7)ó là tính nh(cid:14)p nh0ng (ambiquity) v(cid:17)n có c$a 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 71 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh ngôn ng(cid:25) t(cid:13) nhiên. Tuy nhiên, t(cid:30) h(cid:6)n n%a th(cid:8) k& qua, các nhà ngôn ng(cid:25) h(cid:12)c và các nhà (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc tin h(cid:12)c (cid:7)ã cùng nhau t(cid:30)ng b(cid:10)(cid:20)c kh(cid:16)c ph!c (cid:7)(cid:10)(cid:26)c (cid:7)áng k(cid:28) các tr(cid:3) ng(cid:11)i này và (cid:7)ã (cid:7)(cid:11)t nhi(cid:31)u k(cid:8)t qu(cid:5) t(cid:10)(cid:6)ng (cid:7)(cid:17)i kh(cid:5) quan. 2.4.1. V(cid:1)n (cid:2)(cid:3) trong vi(cid:4)c x(cid:5) lí v(cid:6)n b(cid:7)n: V(cid:18)n b(cid:5)n (cid:7)(cid:2)u vào (cid:3) d(cid:11)ng text, ch+ng h(cid:11)n nh(cid:10) các trang HTML, ch(cid:10)a (cid:7)(cid:10)(cid:26)c x% lí. C(cid:2)n ph(cid:5)i có thêm t(cid:2)ng ti(cid:31)n x% lí (cid:7)(cid:28) x% lí s(cid:6) b(cid:23) v(cid:18)n b(cid:5)n (cid:7)(cid:2)u vào, r1i phân tách nó thành các (cid:7)(cid:6)n v(cid:19) rõ ràng ( nh(cid:10) (cid:7)o(cid:11)n, câu, t(cid:30), …) (cid:7)(cid:28) cho h(cid:9) th(cid:17)ng d- x% lí. Bài toán ti(cid:31)n x% lí v(cid:18)n b(cid:5)n bao g1m các công vi(cid:9)c sau: (cid:2) X% lí s(cid:6) b(cid:23) v(cid:18)n b(cid:5)n (cid:7)(cid:2)u vào (làm s(cid:11)ch v(cid:18)n b(cid:5)n) b0ng cách xoá b2 nh(cid:25)ng kí t(cid:13), nh(cid:25)ng mã (cid:7)i(cid:31)u khi(cid:28)n, nh(cid:25)ng ph(cid:2)n không c(cid:2)n thi(cid:8)t trong bài toán. (cid:2) Trong m(cid:15)i v(cid:18)n b(cid:5)n, kh(cid:17)i ti(cid:31)n x% lí s* nh(cid:14)n ra các tiêu (cid:7)(cid:31), các chú thích, các thông tin thêm vào (tác gi(cid:5), ngày…)(n(cid:8)u có), và n(cid:23)i dung chính c$a v(cid:18)n (cid:2) Trong m(cid:15)i (cid:7)o(cid:11)n v(cid:18)n, kh(cid:17)i ti(cid:31)n x% lí s* phân rã nó thành các câu. (cid:1)ây là giai b(cid:5)n. (cid:7)o(cid:11)n khó nh#t. Cao h(cid:6)n n(cid:25)a, kh(cid:17)i này có th(cid:28) phân tích câu thành nh(cid:25)ng m(cid:9)nh (cid:7)(cid:31) (phase) (cid:7)(cid:28) gi(cid:5)m b(cid:20)t gánh n"ng cho h(cid:9) (cid:7)1ng th(cid:4)i t(cid:18)ng ch#t l(cid:10)(cid:26)ng c/ng nh(cid:10) t(cid:17)c (cid:7)(cid:23) x% lí c$a h(cid:9). V(n (cid:30)(cid:22) x(cid:23) lí ng% ngh!a: 2.4.2. Trong x% lý ngôn ng(cid:25) t(cid:13) nhiên, bài toán gán nhãn ng(cid:25) ngh a (sense tagger), hay còn g(cid:12)i là “kh% nh(cid:14)p nh0ng ng(cid:25) ngh a c$a t(cid:30)” ( Word Sense Disambiguation, vi(cid:8)t t(cid:16)t là WSD) là bài toán khó kh(cid:18)n nh#t và c/ng là bài toán tr(cid:12)ng tâm mà (cid:7)(cid:8)n nay th(cid:8) gi(cid:20)i v(cid:21)n ch(cid:10)a th(cid:28) gi(cid:5)i quy(cid:8)t .n tho(cid:5) (cid:7)(cid:10)(cid:26)c. (cid:1)(cid:28) gi(cid:5)i quy(cid:8)t bài toán này, (cid:7)(cid:8)n nay trên th(cid:8) gi(cid:20)i (cid:7)ã có r#t nhi(cid:31)u mô hình v(cid:20)i nhi(cid:31)u h(cid:10)(cid:20)ng ti(cid:8)p c(cid:14)n khác nhau, ch$ y(cid:8)u g1m các h(cid:10)(cid:20)ng: (cid:1) D(cid:13)a trên trí tu(cid:9) nhân t(cid:11)o (AI – based): (cid:7)ây là cách ti(cid:8)p c(cid:14)n s(cid:20)m nh#t (1960) v(cid:20)i nh(cid:25)ng lý thuy(cid:8)t r#t hay v(cid:31) m(cid:11)ng ng(cid:25) ngh a, khung ng(cid:25) ngh a và các ý ni(cid:9)m nguyên thu4 ( nh(cid:10): THING, DO, CAUSE,…) và các quan h(cid:9) nh(cid:10) IS – A, PART – OF, …. Tuy nhiên, do h(cid:2)u h(cid:8)t các tri th(cid:27)c v(cid:31) ng(cid:25) ngh a trong cách ti(cid:8)p c(cid:14)n này (cid:7)(cid:31)u (cid:7)(cid:10)(cid:26)c xây d(cid:13)ng b0ng tay ( không th(cid:28) xây d(cid:13)ng (cid:7)(cid:10)(cid:26)c nhi(cid:31)u tri th(cid:27)c v(cid:31) 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 72 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh th(cid:8) gi(cid:20)i th(cid:13)c ), vì v(cid:14)y các mô hình này (cid:7)(cid:31)u d(cid:30)ng l(cid:11)i (cid:3) m(cid:27)c (cid:7)(cid:23) bi(cid:28)u di-n trên m(cid:23)t (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc vài câu ( demonstration on “toy” program). V#n (cid:7)(cid:31) khó kh(cid:18)n c$a cách ti(cid:8)p c(cid:14)n này là tình tr(cid:11)ng thi(cid:8)u tri th(cid:27)c. (cid:1) D(cid:13)a trên c(cid:6) s(cid:3) tri th(cid:27)c (Knowledge – Based): Vào (cid:7)(cid:2)u th(cid:14)p niên 80, ng(cid:10)(cid:4)i ta (cid:7)ã chuy(cid:28)n sang h(cid:10)(cid:20)ng khai thác tri th(cid:27)c t(cid:13) (cid:7)(cid:23)ng t(cid:30) các t(cid:30) (cid:7)i(cid:28)n (cid:7)i(cid:9)n t% (MRD: Machine – Readable Dictionaries) nh(cid:10) các t(cid:30) (cid:7)i(cid:28)n (cid:7)1ng ngh a (thesaurus), LDOCE, LLOCE,… (cid:7)(cid:28) có th(cid:28) ph(cid:2)n nào kh(cid:16)c ph!c h(cid:11)n ch(cid:8) c$a h(cid:10)(cid:20)ng ti(cid:8)p c(cid:14)n d(cid:13)a trên trí tu(cid:9) nhân t(cid:11)o (tình tr(cid:11)ng thi(cid:8)u tri th(cid:27)c). K(cid:8)t qu(cid:5) c$a h(cid:10)(cid:20)ng ti(cid:8)p c(cid:14)n này là s(cid:13) ra (cid:7)(cid:4)i c$a: m(cid:11)ng WordNet – m(cid:23)t c(cid:6) s(cid:3) tri th(cid:27)c kh.ng l1 v(cid:31) ng(cid:25) ngh a c$a t(cid:30) v(cid:13)ng theo h(cid:10)(cid:20)ng li(cid:9)t kê nét ngh a; h(cid:9) CORELEX theo h(cid:10)(cid:20)ng h(cid:9) th(cid:17)ng nét ngh a; và FrameNet v(cid:31) vai trò (case – roles) c$a (cid:7)(cid:23)ng t(cid:30). Tuy nhiên, các c(cid:6) s(cid:3) tri th(cid:27)c nói trên c/ng ch& là nh(cid:25)ng ngu1n thông tin (cid:7)(cid:28) h(cid:9) th(cid:17)ng ch(cid:12)n ngh a tham kh(cid:5)o, còn ch(cid:12)n thông tin nào trong s(cid:17) nh(cid:25)ng thông tin có liên quan (cid:7)ó thì ta ph(cid:5)i t(cid:13) xác (cid:7)(cid:19)nh trong t(cid:30)ng tr(cid:10)(cid:4)ng h(cid:26)p c! th(cid:28). (cid:1) D(cid:13)a trên ng(cid:25) li(cid:9)u (Corpus – Based): H(cid:10)(cid:20)ng ti(cid:8)p c(cid:14)n này s* rút ra các qui lu(cid:14)t x% lý ng(cid:25) ngh a ( b0ng th(cid:17)ng kê, b0ng máy h(cid:12)c,…) t(cid:30) nh(cid:25)ng kho ng(cid:25) li(cid:9)u l(cid:20)n (cid:7)ã có s6n và áp d!ng các lu(cid:14)t này cho các tr(cid:10)(cid:4)ng h(cid:26)p m(cid:20)i. Th(cid:13)c ra cách ti(cid:8)p c(cid:14)n này (cid:7)ã (cid:7)(cid:10)(cid:26)c nêu ra r#t s(cid:20)m (1940), nh(cid:10)ng do ngu1n ng(cid:25) li(cid:9)u h(cid:11)n ch(cid:8), thi(cid:8)t b(cid:19) x% lý ch(cid:10)a hi(cid:9)n (cid:7)(cid:11)i, nên không có (cid:7)i(cid:31)u ki(cid:9)n (cid:7)(cid:28) phát tri(cid:28)n. Mãi (cid:7)(cid:8)n th(cid:14)p niên 1990, khi mà công ngh(cid:9) phát tri(cid:28)n m(cid:11)nh, (cid:7)ã có th(cid:28) v(cid:10)(cid:26)t qua (cid:7)(cid:10)(cid:26)c nh(cid:25)ng khó kh(cid:18)n c$a mình, cách ti(cid:8)p c(cid:14)n này (cid:7)(cid:10)(cid:26)c h1i sinh và phát tri(cid:28)n ngày càng m(cid:11)nh m* cho (cid:7)(cid:8)n ngày hôm nay. Hi(cid:9)n nay, cách ti(cid:8)p c(cid:14)n d(cid:13)a trên ng(cid:25) li(cid:9)u k(cid:8)t h(cid:26)p v(cid:20)i tri th(cid:27)c có s6n là h(cid:10)(cid:20)ng ti(cid:8)p c(cid:14)n (cid:7)ang (cid:7)(cid:10)(cid:26)c nhi(cid:31)u nhà ngôn ng(cid:25) h(cid:12)c – máy tính quan tâm. 2.4.2.1. Khái ni&m v(cid:22) nhãn ng% ngh!a t": T(cid:30) kh(cid:5)o sát ý ngh a t(cid:30) v(cid:13)ng c$a m(cid:15)i t(cid:30), ta th#y m(cid:15)i t(cid:30) có th(cid:28) mang nhi(cid:31)u ngh a khác nhau, nh(cid:10)ng trong m(cid:23)t ng(cid:25) c(cid:5)nh c! th(cid:28), thì nó ch& mang m(cid:23)t ngh a nh#t (cid:7)(cid:19)nh 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 73 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh trong s(cid:17) nh(cid:25)ng ngh a (cid:7)ó. (cid:1)(cid:28) d- phân bi(cid:9)t các ngh a t(cid:30) v(cid:13)ng khác nhau, các nhà ng(cid:25) (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc ngh a h(cid:12)c, t(cid:30) v(cid:13)ng h(cid:12)c và tâm lý h(cid:12)c – ngôn ng(cid:25) (cid:7)ã phân chia toàn b(cid:23) các ý ngh a t(cid:30) v(cid:13)ng có th(cid:28) có thành h(cid:9) th(cid:17)ng các ý ni(cid:9)m ( cây ý ni(cid:9)m) và m(cid:15)i ý ni(cid:9)m nh(cid:10) v(cid:14)y (cid:7)(cid:10)(cid:26)c coi nh(cid:10) là m(cid:23)t nhãn ng(cid:13) ngh(cid:15)a c(cid:16)a t(cid:17). 2.4.2.2. M(cid:25)t s(cid:26) h& th(cid:26)ng nhãn ng% ngh!a: Cho (cid:7)(cid:8)n nay, vi(cid:9)c xây d(cid:13)ng m(cid:23)t h(cid:9) th(cid:17)ng nhãn ng(cid:25) ngh a th(cid:17)ng nh#t v(cid:21)n ch(cid:10)a hoàn t#t và v(cid:21)n (cid:7)ang t1n t(cid:11)i nhi(cid:31)u h(cid:9) th(cid:17)ng nhãn khác nhau (m"c dù h(cid:9) th(cid:17)ng nhãn (cid:3) m(cid:27)c t(cid:30) pháp (cid:7)ã (cid:7)(cid:10)(cid:26)c th(cid:17)ng nh#t và xác (cid:7)(cid:19)nh rõ ràng t(cid:30) lâu). V#n (cid:7)(cid:31) khó kh(cid:18)n là có nh(cid:25)ng t(cid:30) ta không bi(cid:8)t nên phân vào ý ni(cid:9)m nào (l#y ý ngh a nào) vì cách phân lo(cid:11)i còn tu3 thu(cid:23)c vào m!c (cid:7)ích và l nh v(cid:13)c s% d!ng. Ngoài ra, n(cid:8)u h(cid:9) th(cid:17)ng nhãn ng(cid:25) ngh a (cid:7)(cid:10)(cid:26)c phân quá m(cid:19)n thì s(cid:17) nhãn s* r#t l(cid:20)n (hàng ch!c/ tr(cid:18)m ngàn nhãn) và không th(cid:28) gán nhãn t(cid:13) (cid:7)(cid:23)ng (cid:7)(cid:10)(cid:26)c ( vì khi (cid:7)ó, ta c(cid:2)n ng(cid:25) li(cid:9)u hu#n luy(cid:9)n l(cid:20)n hàng t& t(cid:30)). Còn n(cid:8)u h(cid:9) th(cid:17)ng nhãn phân quá thô (quá ít nhãn), thì nó s* không (cid:7)áp (cid:27)ng (cid:7)(cid:10)(cid:26)c m(cid:23)t s(cid:17) nhu c(cid:2)u phân bi(cid:9)t ngh a trong th(cid:13)c t(cid:8) (ch+ng h(cid:11)n nhu c(cid:2)u kh% m(cid:6) h1 nh(cid:25)ng tr(cid:10)(cid:4)ng h(cid:26)p cùng nhãn ng(cid:25) ngh a nh(cid:10)ng có ý M(cid:23)t s(cid:17) h(cid:9) th(cid:17)ng nhãn ng(cid:25) ngh a thông d!ng hi(cid:9)n nay bao g1m LLOCE (Longman Lexicon Of Contemporary English), LDOCE (Longman Dictionary Of Contemporary English), CORELEX, WordNet…. (cid:1)(cid:31) tài ch(cid:12)n và s% d!ng kho ng(cid:25) li(cid:9)u WordNet là ch$ y(cid:8)u trong giai (cid:7)o(cid:11)n x% lí ngôn ng(cid:25) t(cid:13) nhiên. H(cid:2) th(cid:16)ng nhãn ng(cid:1) ngh(cid:7)a WordNet ngh a t(cid:30) v(cid:13)ng khác nhau). WordNet là m(cid:23)t h(cid:9) c(cid:6) s(cid:3) tri th(cid:27)c kh.ng l1 v(cid:31) ng(cid:25) ngh a c$a t(cid:30) v(cid:13)ng ti(cid:8)ng Anh v(cid:20)i h(cid:6)n 100.000 ý ni(cid:9)m khác nhau, (cid:7)(cid:10)(cid:26)c xây d(cid:13)ng b(cid:3)i các nhà ngôn ng(cid:25) h(cid:12)c – máy tính, ngôn ng(cid:25) h(cid:12)c – tâm lý và ngôn ng(cid:25) h(cid:12)c – tri nh(cid:14)n (cid:3) (cid:1)(cid:11)i h(cid:12)c Princeton (M(cid:29)) t(cid:30) (cid:7)(cid:2)u th(cid:14)p niên 1980. WordNet là m(cid:23)t h(cid:9) tr(cid:13)c tuy(cid:8)n (on – line) cho phép m(cid:12)i ng(cid:10)(cid:4)i (cid:3) kh(cid:16)p m(cid:12)i n(cid:6)i (cid:7)(cid:10)(cid:26)c t(cid:13) do ( mi-n phí) khai thác hay s% d!ng cho các m!c (cid:7)ích nghiên c(cid:27)u, h(cid:12)c t(cid:14)p. WordNet là m(cid:23)t kho tàng tri th(cid:27)c ng(cid:25) ngh a t(cid:30) v(cid:13)ng kh.ng l1 (cid:7)(cid:10)(cid:26)c nhi(cid:31)u nhà ngôn ng(cid:25) h(cid:12)c và ngôn ng(cid:25) h(cid:12)c – máy tính khai thác, (cid:27)ng d!ng thành công trong nhi(cid:31)u 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 74 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh bài toán x% lý ng(cid:25) ngh a. Hi(cid:9)n nay, WordNet (cid:7)ang (cid:7)(cid:10)(cid:26)c các nhà khoa h(cid:12)c v(cid:31) ngôn (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc ng(cid:25), tâm lý, máy tính trên toàn th(cid:8) gi(cid:20)i ti(cid:8)p t!c khai thác, (cid:7)óng góp (cid:7)(cid:28) c(cid:5)i ti(cid:8)n ngày càng hoàn thi(cid:9)n h(cid:6)n. WordNet có nhi(cid:31)u (cid:10)u (cid:7)i(cid:28)m không th(cid:28) ch(cid:17)i cãi, (cid:7)ó là: tính khoa h(cid:12)c, tính h(cid:9) th(cid:17)ng, tính m(cid:3) (open), tính d- s% d!ng, tính ph. thông, tính phát tri(cid:28)n,… Chính vì v(cid:14)y, (cid:7)(cid:8)n nay, (cid:7)ã có m(cid:23)t s(cid:17) công trình b(cid:5)n (cid:7)(cid:19)a hoá (localization) WordNet theo ngôn ng(cid:25) c$a m(cid:23)t s(cid:17) n(cid:10)(cid:20)c, nh(cid:10): Pháp, Nh(cid:14)t, Tây Ban Nha, Hàn, Nh(cid:14)t,….và g(cid:2)n (cid:7)ây là Vi(cid:9)t Nam. WordNet không ch& (cid:7)(cid:6)n thu(cid:2)n là nhóm các t(cid:30) (cid:7)1ng ngh a hay các t(cid:30) có quan h(cid:9) ng(cid:25) ngh a v(cid:20)i nhau thành t(cid:30)ng l(cid:20)p nh(cid:10) m(cid:23)t s(cid:17) t(cid:30) (cid:7)i(cid:28)n LDOCE, LLOCE,… mà WordNet còn là m(cid:23)t h(cid:9) th(cid:17)ng các ý ni(cid:9)m có quan h(cid:9) nhi(cid:31)u m"t v(cid:20)i nhau, t(cid:11)o thành m(cid:23)t m(cid:11)ng l(cid:10)(cid:20)i ph(cid:27)c t(cid:11)p. M!c tiêu c(cid:6) b(cid:5)n c$a WordNet là ch(cid:27)a các thông tin v(cid:31) ng(cid:13) ngh(cid:15)a c(cid:16)a t(cid:17). Chính vì v(cid:14)y, ngay t(cid:30) (cid:7)(cid:2)u, ta ph(cid:5)i xác (cid:7)(cid:19)nh cách hi(cid:28)u v(cid:31) (cid:7)(cid:6)n v(cid:19) t(cid:17) trong WordNet là nh(cid:10) th(cid:8) nào, sau (cid:7)ó ta tìm hi(cid:28)u v(cid:31) t(cid:14)p (cid:7)1ng ngh a (synset) – thành ph(cid:2)n c(cid:6) b(cid:5)n c$a WordNet (cid:7)(cid:28) áp d!ng vào vi(cid:9)c b(cid:5)n (cid:7)(cid:19)a hoá WordNet thành ngôn ng(cid:25) c$a chúng ta. 2.4.2.3. Các ngu.n tri th’c (cid:30)6 x(cid:23) lý ng% ngh!a: (cid:1)(cid:28) x% lý ng(cid:25) ngh a, ng(cid:10)(cid:4)i ta ph(cid:5)i k(cid:8)t h(cid:26)p nhi(cid:31)u ngu1n tri th(cid:27)c: t(cid:30) các tri th(cid:27)c v(cid:31) ngôn ng(cid:25) (nh(cid:10): hình thái, ng(cid:25) pháp, ng(cid:25) ngh a) cho (cid:7)(cid:8)n các tri th(cid:27)c ngoài ngôn ng(cid:25) ( tri th(cid:27)c v(cid:31) th(cid:8) gi(cid:20)i th(cid:13)c). Các ngu1n tri th(cid:27)c (cid:7)ó th(cid:10)(cid:4)ng bao g1m: 2.4.2.3.1. Tri th(cid:17)c v(cid:18) t(cid:19) lo(cid:20)i Trong tr(cid:10)(cid:4)ng h(cid:26)p các t(cid:30) (cid:7)1ng t(cid:13) ( homograph) và có ngh a khác nhau v(cid:20)i các t(cid:30) lo(cid:11)i khác nhau và (cid:27)ng v(cid:20)i m(cid:23)t t(cid:30) lo(cid:11)i ch& có m(cid:23)t ngh a duy nh#t, thì nh(cid:4) thông tin t(cid:30) lo(cid:11)i, chúng ta s* xác (cid:7)(cid:19)nh (cid:7)(cid:10)(cid:26)c chính xác ngh a c$a chúng. Ví d!, t(cid:30) “can” có ngh a là “có th(cid:28)” (tr(cid:26) (cid:7)(cid:23)ng t(cid:30)), “cái h(cid:26)p” (danh t(cid:30)), “(cid:7)óng h(cid:26)p” ((cid:7)(cid:23)ng t(cid:30)). Vì v(cid:14)y, v(cid:20)i các tr(cid:10)(cid:4)ng h(cid:26)p này, n(cid:8)u bi(cid:8)t (cid:7)(cid:10)(cid:26)c chính xác t(cid:30) lo(cid:11)i, chúng ta hoàn toàn kh% (cid:7)(cid:10)(cid:26)c nh(cid:14)p nh0ng ngh a c$a chúng. Ví d!: “ IPRO canAUX canV aDET canNN” (Tôi có th(cid:10) (cid:3)óng h(cid:18)p m(cid:23)t cái h(cid:18)p). Theo th(cid:17)ng kê trong t(cid:30) (cid:7)i(cid:28)n LLOCE , có t(cid:20)i 88% m!c t(cid:30) thu(cid:23)c d(cid:11)ng nói trên, 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 75 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh ngoài ra có 7% tr(cid:10)(cid:4)ng h(cid:26)p mà m!c t(cid:30) (t(cid:14)p các t(cid:30) (cid:7)1ng t(cid:13)) có nhi(cid:31)u t(cid:30) lo(cid:11)i, m(cid:15)i t(cid:30) lo(cid:11)i (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc có th(cid:28) có nhi(cid:31)u ngh a khác nhau, nh(cid:10)ng trong (cid:7)ó có ít nh#t m(cid:23)t t(cid:30) lo(cid:11)i có duy nh#t m(cid:23)t ngh a. (cid:1)(cid:17)i v(cid:20)i tr(cid:10)(cid:4)ng h(cid:26)p này, ta có th(cid:28) kh% nh(cid:14)p nh0ng ngh a n(cid:8)u t(cid:30) lo(cid:11)i c$a nó ( trong ng(cid:25) c(cid:5)nh) chính là t(cid:30) lo(cid:11)i mà ch& có m(cid:23)t ngh a. 2.4.2.3.2. Tri th(cid:17)c v(cid:18) quan h(cid:2) cú pháp và ràng bu(cid:21)c ng(cid:1) ngh(cid:7)a: Tr(cid:10)(cid:4)ng h(cid:26)p m(cid:23)t t(cid:30) trong m(cid:23)t t(cid:30) lo(cid:11)i có nhi(cid:31)u h(cid:6)n m(cid:23)t ngh a, thì thông tin t(cid:30) lo(cid:11)i không (cid:7)$ (cid:7)(cid:28) kh% nh(cid:14)p nh0ng ngh a. Ví d!: t(cid:30) “bank” (có 2 t(cid:30) lo(cid:11)i là (cid:7)(cid:23)ng t(cid:30) và danh t(cid:30)), v(cid:20)i t(cid:30) lo(cid:11)i danh t(cid:30) có các ngh a: “ngân hàng”, “b(cid:4) sông”, “dãy”,…. Trong tr(cid:10)(cid:4)ng h(cid:26)p này, ta c(cid:2)n s% d!ng thêm tri th(cid:27)c v(cid:31) th(cid:8) gi(cid:20)i th(cid:13)c thông qua các ràng bu(cid:23)c ng(cid:25) ngh a ( selectional restriction) gi(cid:25)a các thành ph(cid:2)n cú pháp (S – V – O – M ) trong câu. Ví d!, trong câu “I enter an old bank”, sau khi qua ph(cid:2)n gán nhãn ng(cid:25) pháp, ta (cid:7)(cid:10)(cid:26)c: [IPRO]NP [enterV [anDET oldADJ bankN]NP]VP và cây cú pháp nh(cid:10) hình d(cid:10)(cid:20)i (cid:7)ây: 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 76 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh Hình 13 Các quan h& cú pháp và ràng bu(cid:25)c ng% ngh!a (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc Trên cây cú pháp này, ta xác (cid:7)(cid:19)nh (cid:7)(cid:10)(cid:26)c các quan h(cid:9) cú pháp nh(cid:10): S – V (ch$ ng(cid:25) – (cid:7)(cid:23)ng t(cid:30)), V – O ((cid:7)(cid:23)ng t(cid:30) – (cid:7)(cid:17)i t(cid:30)), A – N ( tính t(cid:30) – danh t(cid:30)), D – N ( (cid:7)(cid:19)nh t(cid:30) – danh t(cid:30)). M(cid:15)i t(cid:30) th(cid:13)c (content words) trong câu trên, cho dù (cid:7)ã xác (cid:7)(cid:19)nh (cid:7)(cid:10)(cid:26)c t(cid:30) lo(cid:11)i chính xác, nh(cid:10)ng (cid:7)(cid:31)u v(cid:21)n gây nh(cid:14)p nh0ng v(cid:31) ng(cid:25) ngh a. Ví d!, (cid:7)(cid:23)ng t(cid:30) “enter” ( (cid:7)i vào / nh(cid:14)p), danh t(cid:30) “bank” (ngân hàng/ b(cid:4) sông/ dãy), tính t(cid:30) “old” (già/ c/ ). Vì v(cid:14)y, chúng ta ph(cid:5)i s% d!ng (cid:7)(cid:8)n nh(cid:25)ng ràng bu(cid:23)c ng(cid:25) ngh a nh(cid:10) sau: T(cid:30) Ràng bu(cid:23)c / Ràng bu(cid:23)c nhãn ng(cid:25) ngh a I (tôi) Type: Person (Ng(cid:10)(cid:4)i) Enter1 S:Human O:Closed – SPA ((cid:7)i vào) (ng(cid:10)(cid:4)i) (không kín) Enter2 S:Human O: Data (d(cid:25) li(cid:9)u) (nh(cid:14)p) (ng(cid:10)(cid:4)i) Bank1 Type: Hou (nhà c%a, không gian kín) (ngân hàng) Bank2 Type: Nat (b(cid:4) sông) (công trình thiên nhiên, không gian h(cid:3)) Old1 N: Ani (già) (có s(cid:13) s(cid:17)ng) Old2 (c/) 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 77 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh B(cid:19)ng 5: Danh sách các ngh a và ràng bu(cid:23)c c$a các t(cid:30) th(cid:13)c trong câu. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc Hình 14 Cây quy(cid:28)t (cid:30)-nh trong vi&c ch)n ngh!a phù h(cid:29)p. Qua vi(cid:9)c duy(cid:9)t cây t(cid:30) trên xu(cid:17)ng v(cid:20)i g(cid:17)c là (cid:7)(cid:23)ng t(cid:30) (Enter), cu(cid:17)i cùng ta ch(cid:12)n (cid:7)(cid:10)(cid:26)c các ngh a phù h(cid:26)p: enter1 ((cid:7)i vào), bank1 ( ngân hàng), và old2 (c/). Trong vi(cid:9)c xét (cid:7)i(cid:31)u ki(cid:9)n ràng bu(cid:23)c v(cid:31) ng(cid:25) ngh a, chúng ta ph(cid:5)i xét (cid:7)(cid:8)n tính c#p b(cid:14)c (hierachical) trong h(cid:9) th(cid:17)ng nhãn ng(cid:25) ngh a (ontology) mà trong (cid:7)ó khái ni(cid:9)m con s* k(cid:8) th(cid:30)a các nét ngh a c$a khái ni(cid:9)m cha và có thêm nét ngh a m(cid:20)i riêng c$a chúng. Thông tin v(cid:31) (cid:7)"c (cid:7)i(cid:28)m ng(cid:25) ngh a (type) c$a t(cid:30)ng m!c t(cid:30) th(cid:13)c c/ng nh(cid:10) các ràng bu(cid:23)c (cid:7)ã (cid:7)(cid:10)(cid:26)c xác (cid:7)(cid:19)nh trong t(cid:30) (cid:7)i(cid:28)n LDOCE và FrameNet. 2.4.2.3.3. Tri th(cid:17)c v(cid:18) ngôn t(cid:19) ( Collocation) Ràng bu(cid:23)c v(cid:31) ng(cid:25) ngh a gi(cid:25)a các thành ph(cid:2)n cú pháp không ph(cid:5)i lúc nào c/ng gi(cid:5)i quy(cid:8)t (cid:7)(cid:10)(cid:26)c m(cid:12)i nh(cid:14)p nh0ng, vì có nh(cid:25)ng quan h(cid:9) ti(cid:31)m 5n v(cid:31) logic, v(cid:31) ng(cid:25) ngh a ho"c th(cid:14)m chí do thói quen mà vi(cid:9)c nh(cid:14)n bi(cid:8)t ph(cid:5)i (cid:7)òi h2i nh(cid:25)ng tri th(cid:27)c th(cid:8) gi(cid:20)i th(cid:13)c mà (cid:7)(cid:8)n nay ng(cid:10)(cid:4)i ta c/ng ch(cid:10)a th(cid:28) tích h(cid:26)p h(cid:8)t vào t(cid:30) (cid:7)i(cid:28)n hay các c(cid:6) s(cid:3) tri th(cid:27)c khác 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 78 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh trong máy tính. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc Ví d!, danh t(cid:30) “bank” trong câu “I go to the bank…” có ngh a gì? Ta s* ch(cid:12)n ngh a nào trong s(cid:17) các ngh a: “ngân hàng/ b(cid:4) (sông) / dãy”; danh t(cid:30) “way” là “(cid:7)(cid:10)(cid:4)ng ((cid:7)i) / cách (th(cid:27)c)”?; danh t(cid:30) “letter” là “b(cid:27)c th(cid:10) / ch(cid:25) cái”?;…. N(cid:8)u ta ch& xét các ràng bu(cid:23)c v(cid:31) ng(cid:25) ngh a ( không ph(cid:5)i lúc nào các ràng bu(cid:23)c này c/ng có m"t (cid:7)(cid:2)y (cid:7)$ ) thì ta khó mà có th(cid:28) xác (cid:7)(cid:19)nh (cid:7)(cid:10)(cid:26)c chính xác ngh a c$a các t(cid:30) nh(cid:14)p nh0ng (cid:7)ó. Vì v(cid:14)y, (cid:7)(cid:28) kh% nh(cid:14)p nh0ng trong nh(cid:25)ng tr(cid:10)(cid:4)ng h(cid:26)p này, ng(cid:10)(cid:4)i ta th(cid:10)(cid:4)ng xét (cid:7)(cid:8)n hình thái và ng(cid:25) ngh a c$a các t(cid:30) lân c(cid:14)n hay còn g(cid:12)i là ngôn t(cid:30) (collocation).
Ch+ng h(cid:11)n khi th#y “bank … river” → “b(cid:4) sông”, “bank … account/money” → “ngân hàng”; “way to” → “(cid:7)(cid:10)(cid:4)ng ((cid:7)i)”, “way of” → “cách th(cid:27)c”; “write … letter … to” → “b(cid:27)c th(cid:10)”, “… letter A” → “ch(cid:25) cái”, “… letters, digits, symbols …” → “ch(cid:25) cái”, “write … papers, letters, messages,…” → “b(cid:27)c th(cid:10)”;…. Ph(cid:11)m vi lân c(cid:14)n c$a t(cid:30) c(cid:2)n kh% ng(cid:25) ngh a có th(cid:28) là bên trái 1, 2 hay n t(cid:30) và bên ph(cid:5)i 1, 2 hay n t(cid:30). Vi(cid:9)c ch(cid:12)n l(cid:13)a lân c(cid:14)n này ph! thu(cid:23)c vào t(cid:30)ng tr(cid:10)(cid:4)ng h(cid:26)p và cá nhân c! th(cid:28). 2.4.2.3.4. Tri th(cid:17)c v(cid:18) ch(cid:22) (cid:23)(cid:18) (subject) Trong m(cid:23)t s(cid:17) tr(cid:10)(cid:4)ng h(cid:26)p nh(cid:14)p nh0ng, chúng ta có th(cid:28) xác (cid:7)(cid:19)nh (cid:7)(cid:10)(cid:26)c ngh a (cid:7)úng c$a t(cid:30) n(cid:8)u ta bi(cid:8)t (cid:7)(cid:10)(cid:26)c ch$ (cid:7)(cid:31) c$a v(cid:18)n b(cid:5)n. Ch+ng h(cid:11)n t(cid:30) “bank”, n(cid:8)u (cid:7)ang nói
v(cid:31) v#n (cid:7)(cid:31) “tài chính” thì nó th(cid:10)(cid:4)ng có ngh a là “ngân hàng”; t(cid:30) “driver” → “trình (cid:7)i(cid:31)u khi(cid:28)n” ( n(cid:8)u ch$ (cid:7)(cid:31) là l nh v(cid:13)c “tin h(cid:12)c”); “sentence” → “câu” (n(cid:8)u ch$ (cid:7)(cid:31) là “ngôn ng(cid:25) / v(cid:18)n ph(cid:11)m”) ho"c “b(cid:5)n án” ( n(cid:8)u (cid:7)ang nói v(cid:31) “pháp lu(cid:14)t”); “element” → “nguyên t(cid:17)” ( trong “hoá”) / “ph(cid:2)n t%” (trong “toán / tin h(cid:12)c”);…. (cid:12)6 xác (cid:30)-nh (cid:30)(cid:14)(cid:29)c ch (cid:30)(cid:22) c a v8n b(cid:19)n (cid:7)ang c(cid:2)n d(cid:19)ch, ta c+n xem xét s# xu(t hi&n c a m(cid:25)t s(cid:26) t" chuyên môn trong l!nh v#c (cid:30)ó. Ch+ng h(cid:11)n, n(cid:8)u trong v(cid:18)n b(cid:5)n ta th#y xu#t hi(cid:9)n các t(cid:30) nh(cid:10): “ellipsis” (t&nh l(cid:10)(cid:26)c), “bilingual” (song ng(cid:25)), “anaphora” (th(cid:8) (cid:7)(cid:11)i t(cid:30)), “pharse” (ng(cid:25)), … thì ta có th(cid:28) (cid:7)oán nh(cid:14)n v(cid:18)n b(cid:5)n này (cid:7)ang nói v(cid:31) ch$ (cid:7)(cid:31) 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 79 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh “ngôn ng(cid:25) h(cid:12)c”; t(cid:10)(cid:6)ng t(cid:13) cho các t(cid:30) “computer”, “memory”, “peripherals”, “CPU”,…
→ (cid:7)ang nói v(cid:31) “tin h(cid:12)c”, …. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc Chính vì v(cid:14)y, trong t(cid:30) (cid:7)i(cid:28)n LDOCE/ LLOCE (cid:7)(cid:31)u có mã s(cid:17) ch$ (cid:7)(cid:31) cho các t(cid:30) chuyên môn này. Chúng ta có th(cid:28) xác (cid:7)(cid:19)nh (cid:7)(cid:10)(cid:26)c ch$ (cid:7)(cid:31) m(cid:23)t cách t(cid:13) (cid:7)(cid:23)ng b0ng cách xem xét các t(cid:30) chuyên môn lân c(cid:14)n t(cid:30) (cid:7)ang c(cid:2)n kh% nh(cid:14)p nh0ng. 2.4.2.3.5. Tri th(cid:17)c v(cid:18) t(cid:14)n su(cid:24)t ngh(cid:7)a c(cid:22)a t(cid:19) M(cid:23)t t(cid:30) không ph(cid:5)i lúc nào c/ng thu(cid:23)c v(cid:31) m(cid:23)t ch$ (cid:7)(cid:31) nh#t (cid:7)(cid:19)nh ( trong t(cid:30) (cid:7)i(cid:28)n LDOCE, h(cid:6)n 56% t(cid:30) thu(cid:23)c d(cid:11)ng này), vì v(cid:14)y tính thông d!ng c$a m(cid:23)t ngh a nào (cid:7)ó còn (cid:7)(cid:10)(cid:26)c d(cid:13)a trên (cid:7)(cid:23) (cid:7)o v(cid:31) t(cid:2)n su#t (frequency) xu#t hi(cid:9)n c$a t(cid:30) (cid:7)ó (cid:7)(cid:17)i v(cid:20)i ngh a c! th(cid:28) (cid:7)ó. Ví d!, danh t(cid:30) “pen”có ngh a thông d!ng nh#t là “bút/ vi(cid:8)t” (bên c(cid:11)nh các ngh a ít thông d!ng h(cid:6)n, nh(cid:10): “chu1ng”, “l1ng chim”); “ball” th(cid:10)(cid:4)ng có ngh a là “qu(cid:5) banh/ hòn bi” h(cid:6)n là “bu.i khiêu v/”,… (cid:1)(cid:23) (cid:7)o t(cid:2)n su#t xu#t hi(cid:9)n c$a m(cid:15)i ngh a c$a m(cid:15)i t(cid:30) (cid:7)(cid:10)(cid:26)c th(cid:17)ng kê trên nh(cid:25)ng ng(cid:25) li(cid:9)u r#t l(cid:20)n thu(cid:23)c nhi(cid:31)u lo(cid:11)i v(cid:18)n b(cid:5)n khác nhau. Chính vì v(cid:14)y, trong WordNet và trong LDOCE, các ngh a (cid:7)(cid:10)(cid:26)c s(cid:16)p x(cid:8)p theo th(cid:27) t(cid:13) gi(cid:5)m d(cid:2)n (ngh a thông d!ng nh#t s* (cid:7)(cid:10)(cid:26)c li(cid:9)t kê (cid:7)(cid:2)u tiên). 2.4.2.3.6. Tri th(cid:17)c trong (cid:23)(cid:4)nh ngh(cid:7)a c(cid:22)a ngh(cid:7)a t(cid:19) (definition): Trong các t(cid:30) (cid:7)i(cid:28)n LDOCE/ WordNet, m(cid:15)i ngh a s* (cid:7)(cid:10)(cid:26)c (cid:7)(cid:19)nh ngh a và có ví d! kèm theo. Ví d!, t(cid:30) “bank” trong LDOCE s* có các ngh a kèm (cid:7)(cid:19)nh ngh a c$a nó nh(cid:10):
- “land along the side of a river, lake, etc.” ((cid:7)#t d(cid:12)c bên sông / h1 )
- “a place where money is kept and paid ….” (n(cid:6)i gi(cid:25) ti(cid:31)n và tr(cid:5) ti(cid:31)n …) - “a row, a line of …” (m(cid:23)t hàng, m(cid:23)t dãy …) D(cid:13)a trên thông tin trong các (cid:7)(cid:19)nh ngh a này, và so sánh v(cid:20)i thông tin c$a ng(cid:25) c(cid:5)nh, ta có th(cid:28) xác (cid:7)(cid:19)nh (cid:7)(cid:10)(cid:26)c ngh a phù h(cid:26)p c$a t(cid:30) trong ng(cid:25) c(cid:5)nh (cid:7)ó. (cid:1)(cid:28) th(cid:13)c hi(cid:9)n (cid:7)i(cid:31)u này, Wilks et.al. (cid:7)ã tính toán ph(cid:2)n giao (overlap) c$a t#t c(cid:5) các t. h(cid:26)p ngh a c$a 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 80 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh các t(cid:30) th(cid:13)c trong câu ti(cid:8)ng Anh dùng (cid:7)(cid:28) (cid:7)(cid:19)nh ngh a m(cid:15)i ngh a c$a t(cid:30). (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc 2.4.2.4. Gán nhãn ng% ngh!a Kh% nh(cid:14)p nh0ng ngh a c$a t(cid:30) là bài toán (cid:7)"c tr(cid:10)ng trong gán nhãn ng(cid:25) ngh a. T(cid:27)c là ngh a c$a t(cid:30) (cid:7)a ngh a s* (cid:7)(cid:10)(cid:26)c xác (cid:7)(cid:19)nh ngay n(cid:8)u bi(cid:8)t nhãn ng(cid:25) ngh a c$a nó, ví d!: danh t(cid:30) “bank” s* có ngh a là “ngân hàng” n(cid:8)u (cid:7)(cid:10)(cid:26)c gán nhãn là “HOU”, và có ngh a “b(cid:4) (sông)” n(cid:8)u gán nhãn “NAT”, …. Trong các mô hình gán nhãn ng(cid:25) ngh a theo cách ti(cid:8)p c(cid:14)n d(cid:13)a trên các ngu1n tri th(cid:27)c nói trên, ng(cid:10)(cid:4)i ta th(cid:10)(cid:4)ng s% d!ng b(cid:23) nhãn có (cid:7)(cid:23) m(cid:19)n (granularity) khác nhau. B(cid:23) nhãn càng m(cid:19)n ( chi ti(cid:8)t hàng tr(cid:18)m ngàn nhãn nh(cid:10) WordNet) thì (cid:7)(cid:23) chính xác c$a vi(cid:9)c gán nhãn s* th#p h(cid:6)n nh(cid:10)ng kh(cid:5) n(cid:18)ng kh% nh(cid:14)p nh0ng ngh a c$a nó s* cao h(cid:6)n ( vì không có tr(cid:10)(cid:4)ng h(cid:26)p nào cùng nhãn mà khác ngh a). Ng(cid:10)(cid:26)c l(cid:11)i, n(cid:8)u ch(cid:12)n b(cid:23) nhãn càng thô ( ch& có 36 nhãn nh(cid:10) LLOCE), thì (cid:7)(cid:23) chính xác trong gán nhãn s* cao h(cid:6)n và t#t nhiên kh(cid:5) n(cid:18)ng kh% nh(cid:14)p nh0ng ngh a s* th#p h(cid:6)n ( s* có nhi(cid:31)u tr(cid:10)(cid:4)ng h(cid:26)p cùng nhãn nh(cid:10)ng khác ngh a). Ngoài ra, vi(cid:9)c gán nhãn ng(cid:25) ngh a còn (cid:7)(cid:10)(cid:26)c phân bi(cid:9)t theo quy mô gán nhãn: ho"c là gán cho m(cid:23)t s(cid:17) ít các t(cid:30) (cid:7)i(cid:28)n hình ( nh(cid:10) Hwee Ng và Hian Lee cho m(cid:23)t t(cid:30) interest, David Yarowsky cho 12 t(cid:30),…) ho"c là gán cho h(cid:2)u h(cid:8)t các t(cid:30) th(cid:13)c (nh(cid:10) Mark Stevenson và Yorick Wilks, Mona Diab và Philip Resnik). Vi(cid:9)c ch(cid:12)n ngu1n tri th(cid:27)c nào cho m(cid:15)i tình hu(cid:17)ng (cid:7)(cid:10)(cid:26)c h(cid:9) th(cid:17)ng quy(cid:8)t (cid:7)(cid:19)nh b0ng ph(cid:10)(cid:6)ng pháp h(cid:12)c giám sát trên ng(cid:25) li(cid:9)u (cid:7)ã (cid:7)(cid:10)(cid:26)c gán nhãn ng(cid:25) ngh a chính xác ( (cid:7)ây chính là ng(cid:25) li(cid:9)u hu#n luy(cid:9)n hay còn g(cid:12)i là ng(cid:25) li(cid:9)u vàng). Gi(cid:5)i thu(cid:14)t h(cid:12)c có th(cid:28) là m(cid:11)ng Neural, cây quy(cid:8)t (cid:7)(cid:19)nh, MBL, TBL,… mà trong (cid:7)ó các gi(cid:5)i thu(cid:14)t h(cid:12)c d(cid:13)a trên ký hi(cid:9)u (symbolic) t2 ra chính xác h(cid:6)n. 2.4.2.5. Các m’c (cid:30)(cid:25) nh*p nh9ng trong x(cid:23) lý ng% ngh!a: 2.4.2.5.1. Nh(cid:13)p nh(cid:25)ng m(cid:17)c t(cid:19) v(cid:10)ng: Nh(cid:10) câu ví d! “I enter the bank” (cid:3) trên, sau khi phân tích cú pháp, máy tính (cid:7)ã xác (cid:7)(cid:19)nh (cid:7)(cid:10)(cid:26)c m(cid:17)i quan h(cid:9) gi(cid:25)a (cid:7)(cid:23)ng t(cid:30) “enter” ((cid:7)i vào) và (cid:7)(cid:17)i t(cid:30) c$a nó là “bank” (là ngân hàng hay b(cid:6) sông?) thì ph(cid:5)i c(cid:2)n phân tích ng(cid:25) ngh a c$a (cid:7)(cid:23)ng t(cid:30) “enter” và danh 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 81 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh t(cid:30) “bank”. Trong tr(cid:10)(cid:4)ng h(cid:26)p này máy s* v(cid:14)n d!ng các ý ni(cid:9)m c$a ngôn ng(cid:25) h(cid:12)c tri (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc nh(cid:14)n (cid:7)(cid:28) bi(cid:8)t r0ng “enter” là hành (cid:7)(cid:23)ng “(cid:3)i vào không gian kín (close space)” và danh t(cid:30) “bank” v(cid:20)i ngh a là “b(cid:4) sông” có thu(cid:23)c tính là “không gian h(cid:3)” thì s* không tho(cid:5) thu(cid:23)c tính này, ch& có “bank” v(cid:20)i ngh a “ngân hàng” là s* tho(cid:5) (cid:7)i(cid:31)u ki(cid:9)n “không gian kín” này, nên cu(cid:17)i cùng máy tính s* ch(cid:12)n ngh a “ngân hàng”. 2.4.2.5.2. Nh(cid:13)p nh(cid:25)ng m(cid:17)c c(cid:24)u trúc: Ví d! xét ng(cid:25) “Old man and woman”, ta có 2 phân tích: “[Old man] and [woman]” và “Old [man and woman]” và máy tính s* ch(cid:12)n cách phân tích th(cid:27) nhì (do tính cân b0ng v(cid:17)n có trong c#u trúc song song c$a liên t(cid:30) “and”). Tuy nhiên, n(cid:8)u xét “Old man and child”, ta c/ng s* có 2 phân tích: “[Old man] and [child]” và “Old [man and child]” và máy tính s* ch(cid:12)n cách phân tích th(cid:27) nh#t, vì máy th#y c#u trúc th(cid:27) nhì là vô lý (do có s(cid:13) (cid:7)(cid:17)i l(cid:14)p gi(cid:25)a thu(cid:23)c tính “tr,” trong “child” và già trong “man”). 2.4.2.5.3. Nh(cid:13)p nh(cid:25)ng m(cid:17)c liên câu: Ví d! xét câu “The monkey ate the banana because it was hungry” (con kh& (cid:18)n chu(cid:17)i vì nó (cid:7)ói). Trong m(cid:23)t s(cid:17) tr(cid:10)(cid:4)ng h(cid:26)p, máy tính hi(cid:9)n nay có th(cid:28) xác (cid:7)(cid:19)nh (cid:7)(cid:10)(cid:26)c (cid:7)(cid:11)i t(cid:30) “it” (nó) thay th(cid:8) cho t(cid:30) nào: “monkey” (kh&) hay “banana” (chu(cid:17)i). (cid:1)(cid:28) gi(cid:5)i quy(cid:8)t (cid:7)(cid:10)(cid:26)c nh(cid:14)p nh0ng này, máy tính ph(cid:5)i xem l(cid:11)i m(cid:9)nh (cid:7)(cid:31) tr(cid:10)(cid:20)c và v(cid:14)n d!ng tri th(cid:27)c v(cid:31) th(cid:8) gi(cid:20)i th(cid:13)c có trong WordNet (cid:7)(cid:28) bi(cid:8)t r0ng “ch& có kh& m(cid:20)i có kh(cid:5) n(cid:18)ng (cid:7)ói” nên s* ch(cid:12)n “it thay th(cid:8) cho monkey”. Còn trong câu: “The monkey ate the banana because it was ripe” (con kh(cid:19) (cid:20)n chu(cid:21)i vì nó chín), thì máy tính s* bi(cid:8)t r0ng “ch& có chu(cid:21)i m(cid:20)i có kh(cid:5) n(cid:18)ng chín), nên s* ch(cid:12)n “it thay th(cid:8) cho banana”. Phân lo4i v8n b(cid:19)n (Text Classification) 2.4.3. Trong th(cid:4)i (cid:7)(cid:11)i ngày này, th(cid:4)i (cid:7)(cid:11)i c$a thông tin, l(cid:10)(cid:26)ng v(cid:18)n b(cid:5)n ngày càng l(cid:20)n và ta c(cid:2)n phân lo(cid:11)i các v(cid:18)n b(cid:5)n thành các nhóm ch$ (cid:7)(cid:31) khác nhau, nh(cid:10): theo chuyên ngành (Toán, Lý, Hoá, V(cid:18)n, S%, …), theo l nh v(cid:13)c (Khoa h(cid:12)c, V(cid:18)n hoá, Xã h(cid:23)i, Chính tr(cid:19), …), …. Do kh(cid:17)i l(cid:10)(cid:26)ng quá l(cid:20)n, ta không th(cid:28) phân lo(cid:11)i th$ công b0ng tay (cid:7)(cid:10)(cid:26)c. Vì v(cid:14)y, m(cid:23)t ch(cid:10)(cid:6)ng trình máy tính phân lo(cid:11)i t(cid:13) (cid:7)(cid:23)ng (cid:7)(cid:10)(cid:26)c yêu c(cid:2)u. (cid:1)(cid:28) xây d(cid:13)ng ch(cid:10)(cid:6)ng 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 82 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh trình này, ng(cid:10)(cid:4)i ta (cid:7)ã dùng nhi(cid:31)u cách ti(cid:8)p c(cid:14)n khác nhau, nh(cid:10): d(cid:13)a trên t(cid:30) khoá, d(cid:13)a (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc trên tr(cid:10)(cid:4)ng ng(cid:25) ngh a c$a các t(cid:30) có t(cid:2)n s(cid:17) xu#t hi(cid:9)n cao, mô hình Maximum Entropy, d(cid:13)a trên lý thuy(cid:8)t t(cid:14)p thô, … (cid:1)(cid:17)i v(cid:20)i ti(cid:8)ng Anh, các k(cid:8)t qu(cid:5) trong l nh v(cid:13)c này r#t kh(cid:5) quan. Còn (cid:7)(cid:17)i v(cid:20)i ti(cid:8)ng Vi(cid:9)t, g(cid:2)n (cid:7)ây (cid:7)ã có m(cid:23)t s(cid:17) công trình nghiên c(cid:27)u v(cid:31) v#n (cid:7)(cid:31) này và (cid:7)ã có m(cid:23)t s(cid:17) k(cid:8)t qu(cid:5) ban (cid:7)(cid:2)u nh(cid:10)ng còn h(cid:11)n ch(cid:8) do ph(cid:2)n phân tích hình thái (tách t(cid:30)) và t(cid:30) (cid:7)i(cid:28)n ý ni(cid:9)m (phân lo(cid:11)i ng(cid:25) ngh a) cho ti(cid:8)ng Vi(cid:9)t ch(cid:10)a hoàn thi(cid:9)n. Bên c(cid:11)nh vi(cid:9)c phân lo(cid:11)i v(cid:18)n b(cid:5)n, ng(cid:10)(cid:4)i ta c/ng quan tâm (cid:7)(cid:8)n các (cid:27)ng d!ng gom c!m v(cid:18)n b(cid:5)n nh0m nhóm các 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 83 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh v(cid:18)n b(cid:5)n có n(cid:23)i dung t(cid:10)(cid:6)ng t(cid:13) nhau (theo các thông s(cid:17) c$a v(cid:18)n b(cid:5)n) l(cid:11)i v(cid:20)i nhau. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc 3.1. Công ngh& tìm ki(cid:28)m ng% ngh!a trên th(cid:28) gi(cid:20)i hi&n nay: H(cid:2)u h(cid:8)t các hi(cid:9)u qu(cid:5) g(cid:2)n (cid:7)ây c$a các công c! tìm ki(cid:8)m d(cid:13)a vào ng(cid:25) ngh a là ph! thu(cid:23)c cao vào công ngh(cid:9) x% lí ngôn ng(cid:25) t(cid:13) nhiên (cid:7)(cid:28) phân tích và hi(cid:28)u câu truy v#n. M(cid:23)t trong nh(cid:25)ng công c! tìm ki(cid:8)m (cid:7)(cid:2)u tiên và thông d!ng nh#t này là Ask Jeeves (http://www.askjeeves.com/). Nó liên k(cid:8)t nh(cid:25)ng (cid:7)i(cid:28)m m(cid:11)nh c$a ph(cid:2)n m(cid:31)m phân tích ngôn ng(cid:25) t(cid:13) nhiên, x% lí khai khoáng d(cid:25) li(cid:9)u, và t(cid:11)o c(cid:6) s(cid:3) tri th(cid:27)c v(cid:20)i nh(cid:25)ng phân tích theo kinh nghi(cid:9)m. Ng(cid:10)(cid:4)i dùng có th(cid:28) gõ các truy v#n b0ng ngôn ng(cid:25) t(cid:13) nhiên và nh(cid:14)n (cid:7)(cid:10)(cid:26)c nh(cid:25)ng tr(cid:5) l(cid:4)i tho(cid:5) (cid:7)áng. M(cid:23)t ví d! d(cid:13)a trên ng(cid:25) ngh a khác là Albert ( http://www.albert.com/). ’u (cid:7)i(cid:28)m l(cid:20)n nh#t c$a nó là cung c#p nhi(cid:31)u ngôn ng(cid:25) thêm vào cho ti(cid:8)ng Anh, ví d! nh(cid:10) ti(cid:8)ng Pháp, Tây Ban Nha, (cid:1)(cid:27)c. Lo(cid:11)i này c$a search engine c(cid:2)n m(cid:23)t s(cid:17) (cid:7)ông ng(cid:10)(cid:4)i (cid:7)(cid:28) xây d(cid:13)ng nên m(cid:23)t m(cid:11)ng ng(cid:25) ngh a r#t l(cid:20)n nh0m m!c (cid:7)ích h(cid:10)(cid:20)ng t(cid:20)i vi(cid:9)c th(cid:13)c thi h(cid:26)p lí. M(cid:23)t ki(cid:28)u nâng cao khác c$a công c! tìm ki(cid:8)m Internet là Cycorp (http://www.cyc.com/). Cyc liên k(cid:8)t c(cid:6) s(cid:3) tri th(cid:27)c l(cid:20)n nh#t trên th(cid:8) gi(cid:20)i v(cid:20)i Internet. Cyc (en-cyc-lopedia) là m(cid:23)t c(cid:6) s(cid:3) tri th(cid:27)c bao la và (cid:7)a ng(cid:25) c(cid:5)nh. V(cid:20)i Cyc Knowledge Server, nó cho phép các site Internet thêm vào tri th(cid:27)c ng(cid:25) ngh a thông d!ng và phân bi(cid:9)t nh(cid:25)ng ngh a khác nhau c$a các khái ni(cid:9)m nh(cid:14)p nh0ng. 3.1.1. Các hi&u qu(cid:19) tìm ki(cid:28)m ng% ngh!a hi&n nay Khi công ngh(cid:9) Web trí tu(cid:9) nhân t(cid:11)o tr(cid:3) nên nâng cao h(cid:6)n, s% d!ng các th, RDF và OWL s* (cid:7)(cid:10)a ra nh(cid:25)ng c(cid:6) h(cid:23)i ng(cid:25) ngh a cho tìm ki(cid:8)m. Tuy nhiên, kích th(cid:10)(cid:20)c c$a m(cid:11)ng (cid:7)ang (cid:7)(cid:10)(cid:26)c tìm ki(cid:8)m s* ph(cid:5)i thi(cid:8)t l(cid:14)p m(cid:23)t kho(cid:5)ng tr(cid:17)ng cho gi(cid:5)i pháp ph(cid:27)c t(cid:11)p và do (cid:7)ó (cid:5)nh h(cid:10)(cid:3)ng m(cid:11)nh (cid:7)(cid:8)n kh(cid:5) n(cid:18)ng xu#t hi(cid:9)n c$a các k(cid:8)t qu(cid:5) thành công. Nhi(cid:31)u công ty l(cid:20)n (cid:7)ang th(cid:14)t s(cid:13) h(cid:10)(cid:20)ng (cid:7)(cid:8)n v#n (cid:7)(cid:31) c$a tìm ki(cid:8)m ng(cid:25) ngh a. S(cid:13) phát tri(cid:28)n c$a Microsoft v(cid:31) Web có l* ph! thu(cid:23)c vào kh(cid:5) n(cid:18)ng c$a nó (cid:7)(cid:28) hoàn thi(cid:9)n 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 84 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh công c! tìm ki(cid:8)m mà d(cid:21)n (cid:7)(cid:2)u là Google. K(cid:8)t qu(cid:5) là Microsoft (cid:7)ã (cid:7)(cid:10)a ra m(cid:23)t ch(cid:10)(cid:6)ng (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc trình tìm ki(cid:8)m m(cid:20)i g(cid:12)i là MSNBot, nó l(cid:10)(cid:20)t qua Web (cid:7)(cid:28) xây d(cid:13)ng m(cid:23)t ch& m!c c$a các liên k(cid:8)t HTML và các tài li(cid:9)u. MSNBot (cid:7)(cid:10)(cid:26)c d(cid:13) (cid:7)(cid:19)nh nh(cid:10) là m(cid:23)t công ngh(cid:9) mà k(cid:8)t h(cid:26)p các (cid:27)ng d!ng cho h(cid:9) (cid:7)i(cid:31)u hành Windows. Sau (cid:7)ó Microsoft s* k(cid:8)t n(cid:17)i công c! tìm ki(cid:8)m c$a nó v(cid:20)i c.ng MSN trong phiên b(cid:5)n Windows k(cid:8) ti(cid:8)p c$a nó nh0m làm cho d- dàng tìm ki(cid:8)m e-mail, spreadsheets và các tài li(cid:9)u trên các PC (Personal Computer), các m(cid:11)ng h(cid:26)p nh#t, c/ng nh(cid:10) Web. 3.1.2. Công ngh& tìm ki(cid:28)m Tìm ki(cid:8)m ng(cid:25) ngh a gi(cid:5)i quy(cid:8)t v(cid:20)i các khái ni(cid:9)m và các m(cid:17)i quan h(cid:9) logic. N(cid:8)u xem xét các v#n (cid:7)(cid:31) th(cid:13)c t(cid:8) c$a tìm ki(cid:8)m ng(cid:25) ngh a, chúng ta s* th#y r0ng cây tìm ki(cid:8)m (cid:7)(cid:27)ng tr(cid:10)(cid:20)c tình tr(cid:11)ng thi(cid:8)u logic (cid:7)(cid:10)a (cid:7)(cid:8)n v#n (cid:7)(cid:31) ch(cid:10)a hoàn t#t (Incompleteness Problem) hay v#n (cid:7)(cid:31) “ng(cid:16)c ng(cid:27)” (Halting Problem). (cid:1)(cid:2)u tiên hãy xem xét v(n (cid:30)(cid:22) ch(cid:14)a hoàn t(t. K(cid:8)t lu(cid:14)n có th(cid:28) (cid:7)(cid:10)(cid:26)c xem nh(cid:10) là m(cid:23)t s(cid:13) suy di-n c$a m(cid:23)t dãy logic g(cid:16)n l(cid:11)i v(cid:20)i nhau. ( m(cid:15)i (cid:7)i(cid:28)m, có th(cid:28) có nhi(cid:31)u h(cid:10)(cid:20)ng khác nhau (cid:7)(cid:28) t(cid:20)i m(cid:23)t suy di-n m(cid:20)i. Vì v(cid:14)y, nh0m (cid:7)(cid:11)t hi(cid:9)u qu(cid:5), có m(cid:23)t nhóm các kh(cid:5) n(cid:18)ng phân nhánh (cid:7)(cid:28) b0ng cách nào (cid:7)ó h(cid:10)(cid:20)ng (cid:7)(cid:8)n m(cid:23)t gi(cid:5)i pháp (cid:7)úng. Và nhóm các phân nhánh (cid:7)ó có th(cid:28) tr(cid:5)i ra trong các h(cid:10)(cid:20)ng m(cid:20)i l(cid:11). Ví d!, b(cid:11)n có th(cid:28) mu(cid:17)n c(cid:17) g(cid:16)ng (cid:7)(cid:19)nh ngh a “ai là ng(cid:10)(cid:4)i mà Kevin Bacon bi(cid:8)t” d(cid:13)a trên thông tin v(cid:31) m(cid:17)i quan h(cid:9) gia (cid:7)ình c$a anh ta, nh(cid:25)ng phim c$a anh ta, hay nh(cid:25)ng ti(cid:8)p xúc công vi(cid:9)c c$a anh ta. Do (cid:7)ó, có nhi(cid:31)u h(cid:6)n m(cid:23)t h(cid:10)(cid:20)ng (cid:7)(cid:28) (cid:7)(cid:10)a (cid:7)(cid:8)n m(cid:23)t s(cid:17) các k(cid:8)t qu(cid:5). Các k(cid:8)t qu(cid:5) này n0m trong m(cid:23)t nhóm phân nhánh các kh(cid:5) n(cid:18)ng có th(cid:28) có. Do v(cid:14)y, k(cid:8)t lu(cid:14)n trong h(cid:9) th(cid:17)ng c$a chúng ta là m(cid:23)t lo(cid:11)i c$a v#n (cid:7)(cid:31) tìm ki(cid:8)m, (cid:7)(cid:10)(cid:26)c bi(cid:28)u th(cid:19) nh(cid:10) là m(cid:23)t cây tìm ki(cid:8)m. Có th(cid:28) b(cid:16)t (cid:7)(cid:2)u (cid:3) (cid:7)&nh c$a cây, (cid:3) g(cid:17)c, hay t(cid:30) các nhánh. (cid:1)&nh c$a cây có th(cid:28) là câu truy v#n (cid:7)(cid:10)(cid:26)c h2i. M(cid:15)i b(cid:10)(cid:20)c l(cid:2)n xu(cid:17)ng các nút con trong cây này có th(cid:28) (cid:7)(cid:10)(cid:26)c xem nh(cid:10) m(cid:23)t suy di-n logic ti(cid:31)m tàng di chuy(cid:28)n h(cid:10)(cid:20)ng (cid:7)(cid:8)n vi(cid:9)c c(cid:17) g(cid:16)ng xác nh(cid:14)n câu truy v#n nguyên th$y mà s% d!ng b(cid:10)(cid:20)c suy di-n logic này. H(cid:10)(cid:20)ng r* qu(cid:11)t c$a các kh(cid:5) n(cid:18)ng có th(cid:28) (cid:7)(cid:10)(cid:26)c xem nh(cid:10) cây phân nhánh này, tr(cid:3) nên r(cid:14)m r(cid:11)p h(cid:6)n và sâu h(cid:6)n. M(cid:15)i ti(cid:8)p 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 85 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh c(cid:14)n này k(cid:8)t thúc b0ng vi(cid:9)c tr(cid:3) thành m(cid:23)t trong các b(cid:10)(cid:20)c con, (cid:7)(cid:8)n m(cid:23)t nút con. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc T(cid:10)(cid:3)ng t(cid:10)(cid:26)ng r0ng m(cid:15)i nút trong cây này bi(cid:28)u th(cid:19) m(cid:23)t vài h(cid:10)(cid:20)ng (cid:7)(cid:28) xác nh(cid:14)n. M(cid:15)i liên k(cid:8)t t(cid:30) m(cid:23)t nút cha cao h(cid:6)n (cid:7)(cid:8)n m(cid:23)t nút con bi(cid:28)u th(cid:19) m(cid:23)t câu l(cid:9)nh logic. Bây gi(cid:4) v#n (cid:7)(cid:31) này là chúng ta có m(cid:23)t cây l(cid:20)n c$a các kh(cid:5) n(cid:18)ng. Trong m(cid:23)t h(cid:9) th(cid:17)ng logic ph(cid:27)c t(cid:11)p, có m(cid:23)t s(cid:17) l(cid:10)(cid:26)ng l(cid:20)n các ch(cid:27)ng c(cid:20) ti(cid:31)m tàng. M(cid:23)t s(cid:17) chúng dài và không rõ ràng n(cid:8)u ch& có m(cid:23)t ch(cid:27)ng c(cid:20). (cid:1)(cid:10)(cid:26)c ch(cid:27)ng minh vào nh(cid:25)ng n(cid:18)m 1930, m(cid:23)t s(cid:17) h(cid:9) th(cid:17)ng logic (cid:7)$ ph(cid:27)c t(cid:11)p v(cid:17)n (cid:7)ã là không (cid:7)(cid:2)y (cid:7)$ (không th(cid:28) quy(cid:8)t (cid:7)(cid:19)nh). Nói cách khác, có các câu l(cid:9)nh mà không th(cid:28) (cid:7)(cid:10)(cid:26)c ch(cid:27)ng minh m(cid:23)t cách logic. Lu(cid:14)n c(cid:27) c$a nó cho (cid:7)i(cid:31)u (cid:7)ó liên quan (cid:7)(cid:8)n m(cid:23)t v#n (cid:7)(cid:31) khác, v#n (cid:7)(cid:31) “ng(cid:16)c ng(cid:27)” (Halting Problem). V(n (cid:30)(cid:22) halting suy ra r0ng các thu(cid:14)t gi(cid:5)i hi(cid:9)n nay s* không bao gi(cid:4) k(cid:8)t thúc trong m(cid:23)t câu tr(cid:5) l(cid:4)i. Khi nói v(cid:31) Web, chúng ta nói v(cid:31) hàng tri(cid:9)u các s(cid:13) ki(cid:9)n và hàng ch!c ngàn lu(cid:14)t mà có th(cid:28) n(cid:17)i k(cid:8)t (cid:7)an l(cid:11)i v(cid:20)i nhau trong nh(cid:25)ng h(cid:10)(cid:20)ng ph(cid:27)c t(cid:11)p, vì th(cid:8) không gian c$a các ch(cid:27)ng c(cid:27) ti(cid:31)m tàng là vô t(cid:14)n và cây này theo logic s* tr(cid:3) nên vô t(cid:14)n. Theo (cid:7)ó, chúng ta s* (cid:7)i vào các v#n (cid:7)(cid:31) không hoàn t#t v(cid:17)n có; ví d! nh(cid:10) chúng ta không th(cid:28) th#y m(cid:15)i ch(cid:27)ng c(cid:27) có th(cid:28) có và thu t#t c(cid:5) các câu tr(cid:5) l(cid:4)i. Chúng ta s* (cid:7)i vào tình tr(cid:11)ng không hoàn t#t b(cid:3)i vì cây tìm ki(cid:8)m quá l(cid:20)n. Vì th(cid:8) h(cid:10)(cid:20)ng ti(cid:8)p c(cid:14)n c$a chúng tôi là ch& ph(cid:5)i tìm ki(cid:8)m trên các ph(cid:2)n c$a cây. Có m(cid:23)t chi(cid:8)n l(cid:10)(cid:26)c n.i ti(cid:8)ng cho vi(cid:9)c b0ng cách nào (cid:7)(cid:28) ch& ra các v#n (cid:7)(cid:31) tìm ki(cid:8)m nh(cid:10) v(cid:14)y. M(cid:23)t chi(cid:8)n l(cid:10)(cid:26)c là tìm ki(cid:8)m cây theo “chi(cid:31)u sâu” (depth-first). Tìm ki(cid:8)m chi(cid:31)u sâu s* b(cid:16)t (cid:7)(cid:2)u (cid:3) (cid:7)&nh cây và (cid:7)i xu(cid:17)ng sâu (cid:7)(cid:8)n m(cid:27)c có th(cid:28) m(cid:23)t s(cid:17) (cid:7)(cid:10)(cid:4)ng d(cid:21)n nào (cid:7)ó, m(cid:3) r(cid:23)ng các nút khi chúng ta (cid:7)i, cho (cid:7)(cid:8)n khi tìm th#y m(cid:23)t k(cid:8)t thúc ch(cid:8)t (dead end). M(cid:23)t k(cid:8)t thúc có th(cid:28) là m(cid:23)t (cid:7)ích (thành công) hay m(cid:23)t nút mà chúng ta không th(cid:28) t(cid:11)o ra các con m(cid:20)i. Vì v(cid:14)y h(cid:9) th(cid:17)ng không th(cid:28) ch(cid:27)ng minh b#t c(cid:27) th(cid:27) gì ngoài (cid:7)i(cid:28)m này. Hãy xem qua tìm ki(cid:8)m theo chi(cid:31)u sâu và xoay theo tr!c c$a cây. Chúng ta b(cid:16)t (cid:7)(cid:2)u (cid:3) nút (cid:7)&nh và (cid:7)i sâu nh#t có th(cid:28): 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 86 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh 1) B(cid:16)t (cid:7)(cid:2)u (cid:3) nút cao nh#t.
2) (cid:1)i xu(cid:17)ng sâu nh#t có th(cid:28) theo m(cid:23)t h(cid:10)(cid:20)ng. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc 3) Khi chúng ta (cid:7)i vào m(cid:23)t k(cid:8)t thúc, sao l(cid:10)u nút cu(cid:17)i cùng mà t(cid:30) (cid:7)ó chúng ta r(cid:4)i kh2i. N(cid:8)u có m(cid:23)t (cid:7)(cid:10)(cid:4)ng d(cid:21)n mà chúng ta ch(cid:10)a (cid:7)i, thì hãy l(cid:2)n theo nó. C(cid:27) theo ch(cid:12)n l(cid:13)a này cho (cid:7)(cid:8)n khi chúng ta th#y m(cid:23)t k(cid:8)t thúc hay m(cid:23)t (cid:7)ích (cid:7)(cid:8)n. 4) (cid:1)(cid:10)(cid:4)ng d(cid:21)n này d(cid:21)n (cid:7)(cid:8)n m(cid:23)t k(cid:8)t thúc khác, vì th(cid:8) (cid:7)i tr(cid:3) l(cid:11)i m(cid:23)t nút và c(cid:17) g(cid:16)ng (cid:3) nhánh khác. 5) (cid:1)(cid:10)(cid:4)ng d(cid:21)n (cid:7)(cid:10)a (cid:7)(cid:8)n m(cid:23)t (cid:7)i(cid:28)m (cid:7)ích. Nói cách khác, nút cu(cid:17)i cùng này là m(cid:23)t k(cid:8)t qu(cid:5) kh(cid:5) quan cho truy v#n. Vì th(cid:8) chúng ta có m(cid:23)t câu tr(cid:5) l(cid:4)i. Hãy tìm ki(cid:8)m nh(cid:25)ng (cid:7)áp án khác b0ng cách (cid:7)i lên m(cid:23)t vài node và sau (cid:7)ó (cid:7)i xu(cid:17)ng m(cid:23)t (cid:7)(cid:10)(cid:4)ng d(cid:21)n mà chúng ta ch(cid:10)a (cid:7)i th%. 6) Ti(cid:8)p t!c cho (cid:7)(cid:8)n khi th#y nhi(cid:31)u h(cid:6)n nh(cid:25)ng (cid:7)i(cid:28)m k(cid:8)t thúc và s% d!ng h(cid:8)t nh(cid:25)ng kh(cid:5) n(cid:18)ng tìm ki(cid:8)m. ’u (cid:7)i(cid:28)m c$a tìm ki(cid:8)m theo chi(cid:31)u sâu là: (cid:7)ây là m(cid:23)t cách hi(cid:9)u qu(cid:5) theo thu(cid:14)t toán (cid:7)(cid:28) tìm ki(cid:8)m các cây trong m(cid:23)t (cid:7)(cid:19)nh d(cid:11)ng. Nó gi(cid:20)i h(cid:11)n s(cid:17) l(cid:10)(cid:26)ng không gian mà ta có (cid:7)(cid:28) duy trì vi(cid:9)c nh(cid:20) nh(cid:25)ng th(cid:27) mà ta ch(cid:10)a nhìn th#y. T#t c(cid:5) nh(cid:25)ng th(cid:27) mà chúng ta ph(cid:5)i nh(cid:20) là l(cid:10)u l(cid:11)i (cid:7)(cid:10)(cid:4)ng d(cid:21)n. Khuy(cid:8)t (cid:7)i(cid:28)m c$a tìm ki(cid:8)m này là m(cid:23)t khi chúng ta b(cid:16)t (cid:7)(cid:2)u (cid:7)i xu(cid:17)ng m(cid:23)t h(cid:10)(cid:20)ng, chúng ta s* (cid:7)i (cid:7)(cid:8)n t#t các các con (cid:7)(cid:10)(cid:4)ng cho (cid:7)(cid:8)n cu(cid:17)i cùng. M(cid:23)t chi(cid:8)n l(cid:10)(cid:26)c khác cho tìm ki(cid:8)m là tìm ki(cid:8)m theo chi(cid:31)u ngang tr(cid:10)(cid:20)c. ( (cid:7)ây chúng ta tìm ki(cid:8)m t(cid:30) l(cid:20)p này sang l(cid:20)p khác. (cid:1)(cid:2)u tiên chúng ta c(cid:17) g(cid:16)ng th(cid:13)c hi(cid:9)n t#t c(cid:5) các ki(cid:28)m ch(cid:27)ng (cid:3) b(cid:10)(cid:20)c 0 và sau (cid:7)ó chúng ta c(cid:17) g(cid:16)ng th(cid:13)c hi(cid:9)n t#t c(cid:5) các ki(cid:28)m ch(cid:27)ng (cid:3) b(cid:10)(cid:20)c 1, v.v… ’u (cid:7)i(cid:28)m c$a tìm ki(cid:8)m theo chi(cid:31)u ngang là chúng ta (cid:7)(cid:10)(cid:26)c b(cid:5)o (cid:7)(cid:5)m nh(cid:14)n các ki(cid:28)m ch(cid:27)ng (cid:7)(cid:6)n gi(cid:5)n nh#t tr(cid:10)(cid:20)c khi chúng ta (cid:7)(cid:8)n nh(cid:25)ng cái ph(cid:27)c t(cid:11)p h(cid:6)n. (cid:1)i(cid:31)u này (cid:7)(cid:10)(cid:26)c (cid:7)(cid:10)a ra do nh(cid:25)ng l(cid:26)i ích c$a Ockham’s Razor. N(cid:8)u có m(cid:23)t ki(cid:28)m ch(cid:27)ng (cid:3) b(cid:10)(cid:20)c th(cid:27) n, chúng ta s* tìm th#y nó tr(cid:10)(cid:20)c khi chúng ta xem xét (cid:7)(cid:8)n b(cid:10)(cid:20)c th(cid:27) n+1. Khuy(cid:8)t (cid:7)i(cid:28)m c$a tìm ki(cid:8)m theo chi(cid:31)u ngang là chúng ta có nh(cid:25)ng cây r#t sâu, chúng ra c/ng có nh(cid:25)ng cây r#t r(cid:14)m r(cid:11)p mà chúng ta có hàng ngàn hay hàng ch!c ngàn các 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 87 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh nút con. Khuy(cid:8)t (cid:7)i(cid:28)m khác c$a tìm ki(cid:8)m này là s(cid:17) l(cid:10)(cid:26)ng không gian chúng ta ph(cid:5)i s% (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc d!ng (cid:7)(cid:28) l(cid:10)u t#t c(cid:5) các k(cid:8)t qu(cid:5) m(cid:27)c th(cid:27) 3 tr(cid:10)(cid:20)c khi chúng ta kh(cid:5)o sát nó. V(cid:20)i tìm ki(cid:8)m theo chi(cid:31)u r(cid:23)ng, chúng ta càng (cid:7)i vào cây càng sâu thì không gian yêu c(cid:2)u càng l(cid:20)n. Vì th(cid:8) chúng ta nh(cid:14)n ra r0ng hai trong các thu(cid:14)t gi(cid:5)i c. (cid:7)i(cid:28)n cho tìm ki(cid:8)m, theo chi(cid:31)u d(cid:12)c và chi(cid:31)u ngang, s* d(cid:21)n (cid:7)(cid:8)n nh(cid:25)ng v#n (cid:7)(cid:31) v(cid:31) các h(cid:9) th(cid:17)ng l(cid:20)n. Có hai l(cid:20)p c(cid:6) b(cid:5)n c$a các gi(cid:5)i thu(cid:14)t tìm ki(cid:8)m (cid:7)(cid:10)(cid:26)c s% d!ng (cid:7)(cid:28) c(cid:17) g(cid:16)ng gi(cid:5)i quy(cid:8)t các gi(cid:20)i h(cid:11)n v(cid:31) v#n (cid:7)(cid:31) không hoàn t#t và tình tr(cid:11)ng ng(cid:16)c ng(cid:27) là: không có (cid:7)$ thông tin và có (cid:7)$ thông tin. Các tìm ki(cid:28)m không (cid:30)+y (cid:30) thông tin, hay không nhìn th#y, thì không có thông tin v(cid:31) s(cid:17) l(cid:10)(cid:26)ng các b(cid:10)(cid:20)c hay chi phí (cid:7)(cid:10)(cid:4)ng d(cid:21)n t(cid:30) tr(cid:11)ng thái hi(cid:9)n t(cid:11)i (cid:7)(cid:8)n (cid:7)ích. Nh(cid:25)ng tìm ki(cid:8)m ki(cid:28)u này bao g1m: tìm theo chi(cid:31)u sâu (depth-first), theo chi(cid:31)u r(cid:23)ng (breadth-first), chi phí không (cid:7).i (uniform-cost), gi(cid:20)i h(cid:11)n chi(cid:31)u sâu (depth-limiting) và tìm ki(cid:8)m sâu thêm l"p (cid:7)i l"p l(cid:11)i (iterative deepening). Các tìm ki(cid:28)m (cid:30)+y (cid:30) thông tin, hay heuristic, có (cid:7)(cid:2)y (cid:7)$ thông tin v(cid:31) (cid:7)ích (cid:7)(cid:8)n; thông tin này th(cid:10)(cid:4)ng là chi phí (cid:7)(cid:10)(cid:4)ng d(cid:21)n (cid:10)(cid:20)c l(cid:10)(cid:26)ng cho nó hay là (cid:10)(cid:20)c (cid:7)oán s(cid:17) l(cid:10)(cid:26)ng các b(cid:10)(cid:20)c xu#t phát t(cid:30) nó. Thông tin này (cid:7)(cid:10)(cid:26)c bi(cid:8)t nh(cid:10) là heuristic search agent. Nó cho phép các tìm ki(cid:8)m có (cid:7)(cid:2)y (cid:7)$ thông tin th(cid:13)c hi(cid:9)n t(cid:17)t h(cid:6)n nh(cid:25)ng tìm ki(cid:8)m không (cid:7)$ thông tin và làm cho chúng hành x% trong m(cid:23)t dáng v, hoàn toàn “lí trí”. Nh(cid:25)ng tìm ki(cid:8)m này bao g1m: các tìm ki(cid:8)m best-first, hill-climbing, beam, A*, và IDA* (iterative deepening A*). 3.1.3. Các Web search agent Trong khi các công c! tìm ki(cid:8)m là m(cid:11)nh và quan tr(cid:12)ng cho t(cid:10)(cid:6)ng lai c$a Web, thì có m(cid:23)t hình th(cid:27)c ho(cid:11)t (cid:7)(cid:23)ng khác c$a tìm ki(cid:8)m c/ng (cid:7)óng vai trò quy(cid:8)t (cid:7)(cid:19)nh: các tr(cid:11)m tìm ki(cid:8)m Web (Web search agent). M(cid:23)t Web search agent s* không th(cid:13)c hi(cid:9)n nh(cid:10) m(cid:23)t công c! tìm ki(cid:8)m th(cid:10)(cid:6)ng m(cid:11)i. Các công c! tìm ki(cid:8)m này s% d!ng c(cid:6) s(cid:3) d(cid:25) li(cid:9)u tra c(cid:27)u t(cid:30) m(cid:23)t c(cid:6) s(cid:3) tri th(cid:27)c (Knowledge Base). Trong tr(cid:10)(cid:4)ng h(cid:26)p c$a Web search agent, t(cid:13) các trang Web (cid:7)(cid:10)(cid:26)c tìm ki(cid:8)m và máy tính cung c#p m(cid:23)t giao di(cid:9)n cho ng(cid:10)(cid:4)i dùng. Các k(cid:8)t qu(cid:5) tri giác c$a agent là các tài li(cid:9)u (cid:7)(cid:10)(cid:26)c k(cid:8)t n(cid:17)i thông qua Internet s% d!ng HTTP. Các ho(cid:11)t (cid:7)(cid:23)ng c$a agent (cid:7)(cid:10)(cid:26)c 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 88 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh (cid:7)(cid:19)nh ngh a n(cid:8)u tìm th#y (cid:7)ích (cid:7)(cid:8)n c$a vi(cid:9)c tìm m(cid:23)t trang Web ch(cid:27)a m(cid:23)t (cid:7)i(cid:28)m (cid:7)ích (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc (cid:7)(cid:10)(cid:26)c ch& rõ (ví d! nh(cid:10) t(cid:30) khoá hay c!m t(cid:30)) và n(cid:8)u không , thì tìm m(cid:23)t v(cid:19) trí khác (cid:7)(cid:28) vi(cid:8)ng th(cid:18)m. Nó ho(cid:11)t (cid:7)(cid:23)ng trong môi tr(cid:10)(cid:4)ng s% d!ng các ph(cid:10)(cid:6)ng pháp (cid:7)(cid:2)u ra (cid:7)(cid:28) c(cid:14)p nh(cid:14)t ng(cid:10)(cid:4)i dùng (cid:3) tr(cid:11)ng thái c$a tìm ki(cid:8)m hay các k(cid:8)t qu(cid:5) k(cid:8)t thúc. Cái gì làm cho “trí tu(cid:9)” c$a agent có kh(cid:5) n(cid:18)ng ra quy(cid:8)t (cid:7)(cid:19)nh có lí trí khi (cid:7)(cid:10)a ra m(cid:23)t ch(cid:12)n l(cid:13)a. Nói cách khác, (cid:7)(cid:10)a ra m(cid:23)t (cid:7)ích (cid:7)(cid:8)n, chúng s* ra quy(cid:8)t (cid:7)(cid:19)nh (cid:7)i theo nh(cid:25)ng hành (cid:7)(cid:23)ng mà d(cid:21)n (cid:7)(cid:8)n (cid:7)ích trong m(cid:23)t cách (cid:7)úng lúc. M(cid:23)t agent th(cid:10)(cid:4)ng có th(cid:28) phát sinh ra t#t c(cid:5) các k(cid:8)t qu(cid:5) có th(cid:28) có c$a m(cid:23)t s(cid:13) ki(cid:9)n, nh(cid:10)ng sau (cid:7)ó nó s* c(cid:2)n tìm ki(cid:8)m thông qua nh(cid:25)ng k(cid:8)t qu(cid:5) (cid:7)ó (cid:7)(cid:28) tìm ki(cid:8)m m(cid:23)t (cid:7)ích (cid:7)(cid:8)n mong mu(cid:17)n và th(cid:13)c thi (cid:7)(cid:10)(cid:4)ng d(cid:21)n (chu(cid:15)i các b(cid:10)(cid:20)c) b(cid:16)t (cid:7)(cid:2)u (cid:3) tr(cid:11)ng thái ban (cid:7)(cid:2)u hay tr(cid:11)ng thái hi(cid:9)n t(cid:11)i, (cid:7)(cid:28) (cid:7)(cid:8)n tr(cid:11)ng thái c$a (cid:7)ích (cid:7)(cid:8)n mong mu(cid:17)n. Trong tr(cid:10)(cid:4)ng h(cid:26)p c$a Web search agent thông minh, nó s* c(cid:2)n s% d!ng m(cid:23)t tìm ki(cid:8)m (cid:7)(cid:28) (cid:7)(cid:19)nh h(cid:10)(cid:20)ng thông qua Web (cid:7)(cid:28) t(cid:20)i (cid:7)ích c$a nó. Vi(cid:9)c xây d(cid:13)ng m(cid:23)t Web search agent thông minh c(cid:2)n nh(cid:25)ng k(cid:29) thu(cid:14)t cho tìm ki(cid:8)m nhi(cid:31)u và k(cid:8)t h(cid:26)p t(cid:30) khoá, ng(cid:18)n ch(cid:14)n “handling” và kh(cid:5) n(cid:18)ng t(cid:13) n(cid:5)y m(cid:2)m khi nó s% d!ng h(cid:8)t hoàn toàn m(cid:23)t không gian tìm ki(cid:8)m. (cid:1)(cid:10)a ra m(cid:23)t (cid:7)i(cid:28)m (cid:7)ích, Web search agent x% lí (cid:7)(cid:28) tìm ki(cid:8)m thông qua m(cid:23)t s(cid:17) (cid:7)(cid:10)(cid:4)ng d(cid:21)n c(cid:2)n thi(cid:8)t. Agent này s* d(cid:13)a vào t(cid:30) khoá. Ph(cid:10)(cid:6)ng pháp (cid:7)(cid:10)(cid:26)c $ng h(cid:23) này là (cid:7)(cid:28) b(cid:16)t (cid:7)(cid:2)u t(cid:30) m(cid:23)t v(cid:19) trí “h(cid:11)t gi(cid:17)ng” (do ng(cid:10)(cid:4)i dùng cung c#p) và tìm t#t c(cid:5) nh(cid:25)ng v(cid:19) trí khác (cid:7)(cid:10)(cid:26)c liên k(cid:8)t trong m(cid:23)t d(cid:11)ng cây (cid:7)(cid:8)n g(cid:17)c (v(cid:19) trí h(cid:11)t gi(cid:17)ng) ch(cid:27)a (cid:7)i(cid:28)m (cid:7)ích. Search agent c(cid:2)n bi(cid:8)t (cid:7)i(cid:28)m (cid:7)ích (ví d! t(cid:30) khoá hay c!m t(cid:30)), n(cid:6)i mà b(cid:16)t (cid:7)(cid:2)u, l"p l(cid:11)i bao nhiêu l(cid:2)n (cid:7)i(cid:28)m (cid:7)ích (cid:7)(cid:28) nh(cid:14)n th#y s* xem bao lâu (ràng bu(cid:23)c th(cid:4)i gian), và ph(cid:10)(cid:6)ng pháp gì nên (cid:7)(cid:10)(cid:26)c (cid:7)(cid:19)nh ngh a tiêu chu5n cho vi(cid:9)c ch(cid:12)n (cid:7)(cid:10)(cid:4)ng d(cid:21)n (các ph(cid:10)(cid:6)ng pháp tìm ki(cid:8)m). Nh(cid:25)ng v#n (cid:7)(cid:31) này (cid:7)(cid:10)(cid:26)c (cid:7)(cid:10)a ra trong ph(cid:2)n m(cid:31)m. Vi(cid:9)c th(cid:13)c thi c(cid:2)n m(cid:23)t s(cid:17) tri th(cid:27)c c$a l(cid:14)p trình, làm vi(cid:9)c v(cid:20)i sockets, HTTP, HTML, s(cid:16)p x(cid:8)p, và tìm ki(cid:8)m. Có nhi(cid:31)u ngôn ng(cid:25) trong nh(cid:25)ng thi hành trên Web, nh(cid:25)ng giao di(cid:9)n l(cid:14)p trình (cid:27)ng d!ng (APIs) nâng cao, và kh(cid:5) n(cid:18)ng phân tách v(cid:18)n b(cid:5)n t(cid:17)t h(cid:6)n mà có th(cid:28) s% d!ng 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 89 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh (cid:7)(cid:28) vi(cid:8)t m(cid:23)t Web agent. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc S% d!ng thu(cid:14)t gi(cid:5)i s(cid:16)p x(cid:8)p nâng cao và hi(cid:9)u qu(cid:5) s* giúp c(cid:5)i thi(cid:9)n th(cid:13)c thi c$a Web search agent. Thi(cid:8)t k(cid:8) Web search agent g1m b(cid:17)n giai (cid:7)o(cid:11)n: kh(cid:3)i t(cid:11)o, nh(cid:14)n th(cid:27)c, hành (cid:7)(cid:23)ng và hi(cid:9)u qu(cid:5). Trong giai (cid:30)o4n kh$i t4o, Web search agent nên t(cid:11)o l(cid:14)p t#t c(cid:5) các bi(cid:8)n, c#u trúc và m(cid:5)ng. C/ng nên l#y thông tin c(cid:6) s(cid:3) c(cid:2)n cho vi(cid:9)c ch& (cid:7)(cid:11)o s(cid:18)n tìm (cid:7)i(cid:28)m (cid:7)ích, (cid:7)ích (cid:7)(cid:8)n, m(cid:23)t v(cid:19) trí b(cid:16)t (cid:7)(cid:2)u và ph(cid:10)(cid:6)ng pháp tìm ki(cid:8)m. Giai (cid:30)o4n nh*n th’c, (cid:7)(cid:10)(cid:26)c t(cid:14)p trung s% d!ng tri th(cid:27)c (cid:7)(cid:10)(cid:26)c cung c#p (cid:7)(cid:28) ti(cid:8)p xúc v(cid:20)i m(cid:23)t trang và thu h1i thông tin t(cid:30) v(cid:19) trí (cid:7)ó. Nó nên (cid:7)(cid:10)(cid:26)c nh(cid:14)n di(cid:9)n n(cid:8)u hi(cid:9)n di(cid:9)n (cid:7)i(cid:28)m (cid:7)ích và nên nh(cid:14)n ra các (cid:7)(cid:10)(cid:4)ng d(cid:21)n (cid:7)(cid:8)n nh(cid:25)ng v(cid:19) trí URL khác. Giai (cid:30)o4n hành (cid:30)(cid:25)ng l#y t#t c(cid:5) nh(cid:25)ng thông tin mà h(cid:9) th(cid:17)ng bi(cid:8)t và (cid:7)(cid:19)nh ngh a n(cid:8)u (cid:7)ích (cid:7)(cid:8)n (cid:7)(cid:10)(cid:26)c tìm th#y ((cid:7)i(cid:28)m (cid:7)ích (cid:7)(cid:10)(cid:26)c tìm th#y và vi(cid:9)c s(cid:18)n tìm k(cid:8)t thúc). N(cid:8)u vi(cid:9)c s(cid:18)n tìm v(cid:21)n còn ho(cid:11)t (cid:7)(cid:23)ng nó ph(cid:5)i ra quy(cid:8)t (cid:7)(cid:19)nh (cid:7)i (cid:7)(cid:8)n n(cid:6)i nào ti(cid:8)p theo. (cid:1)ây là s(cid:13) thông minh c$a agent, và ph(cid:10)(cid:6)ng pháp c$a tìm ki(cid:8)m cho bi(cid:8)t Web agent s* “thông minh” bao nhiêu. N(cid:8)u m(cid:23)t liên k(cid:8)t không tìm th#y, vi(cid:9)c s(cid:18)n tìm k(cid:8)t thúc, và nó cung c#p (cid:7)(cid:2)u ra cho user. Web search agent di chuy(cid:28)n t(cid:30) giai (cid:7)o(cid:11)n kh(cid:3)i t(cid:11)o (cid:7)(cid:8)n m(cid:23)t vòng l"p bao g1m các giai (cid:7)o(cid:11)n nh(cid:14)n th(cid:27)c, ho(cid:11)t (cid:7)(cid:23)ng và hi(cid:9)u qu(cid:5) cho (cid:7)(cid:8)n khi (cid:7)(cid:11)t (cid:7)(cid:10)(cid:26)c (cid:7)ích (cid:7)(cid:8)n hay 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 90 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh không. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc 3.2. Các b(cid:14)(cid:20)c xây d#ng m(cid:25)t ’ng d(cid:24)ng semantic search engine: Hình 15: Dòng c(cid:15) s$ tìm ki(cid:28)m Web M(cid:23)t ví d! c$a công ngh(cid:9) tìm ki(cid:8)m ng(cid:25) ngh a là TAP. TAP là m(cid:23)t (cid:7)(cid:31) án phân tán g1m nh(cid:25)ng nhà nghiên c(cid:27)u t(cid:30) Standford, IBM, và W3C. TAP t(cid:11)o (cid:7)òn b5y cho 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 91 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh công ngh(cid:9) t(cid:13) (cid:7)(cid:23)ng và bán t(cid:13) (cid:7)(cid:23)ng rút ra nh(cid:25)ng c(cid:6) s(cid:3) tri th(cid:27)c t(cid:30) ph(cid:2)n thân không có (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc c#u trúc hay bán c#u trúc c$a v(cid:18)n b(cid:5)n. H(cid:9) th(cid:17)ng này có th(cid:28) s% d!ng thông tin v(cid:30)a h(cid:12)c (cid:7)(cid:28) h(cid:12)c thêm thông tin m(cid:20)i, và có th(cid:28) s% d!ng (cid:7)(cid:28) thu h1i thông tin. Trong TAP, các tài li(cid:9)u s6n có (cid:7)(cid:10)(cid:26)c phân tích s% d!ng công ngh(cid:9) ng(cid:25) ngh a và chuy(cid:28)n sang thành các tài li(cid:9)u Web ng(cid:25) ngh a s% d!ng công ngh(cid:9) t(cid:13) (cid:7)(cid:23)ng hay th$ công v(cid:20)i các gói tri th(cid:27)c có c#u trúc ngày càng sâu h(cid:6)n. Công ngh(cid:9) thu h1i thông tin truy(cid:31)n th(cid:17)ng (cid:7)(cid:10)(cid:26)c nâng cao v(cid:20)i tri th(cid:27)c có c#u trúc sâu (cid:7)(cid:28) cung c#p các k(cid:8)t qu(cid:5) chính xác h(cid:6)n. C(cid:5) hai phép phân tích t(cid:13) (cid:7)(cid:23)ng và (cid:7)(cid:10)(cid:26)c h(cid:10)(cid:20)ng d(cid:21)n s% d!ng các h(cid:9) th(cid:17)ng và các agent l(cid:14)p lu(cid:14)n thông minh. Các gi(cid:5)i pháp xây d(cid:13)ng nên m(cid:23)t công ngh(cid:9) trung tâm (cid:7)(cid:10)(cid:26)c g(cid:12)i là các Semantic Web Template. Th(cid:13)c hi(cid:9)n bi(cid:28)u di-n tri th(cid:27)c, s(cid:13) sáng t(cid:11)o, s(cid:13) tiêu th! và duy trì c$a tri th(cid:27)c tr(cid:3) nên trong su(cid:17)t (cid:7)(cid:17)i v(cid:20)i ng(cid:10)(cid:4)i dùng. Mô hình d(cid:25) li(cid:9)u RDF là c(cid:6) s(cid:3) c$a công ngh(cid:9) bi(cid:28)u di-n tri th(cid:27)c Web ng(cid:25) ngh a và TAP s% d!ng RDF Schema và OWL. Khó kh(cid:18)n c$a vi(cid:9)c t(cid:13) t(cid:11)o ra tri th(cid:27)c yêu c(cid:2)u m(cid:23)t máy tri th(cid:27)c có th(cid:28) dùng (cid:7)(cid:28) d(cid:19)ch các tài li(cid:9)u sang nh(cid:25)ng ngôn ng(cid:25) t(cid:10)(cid:26)ng tr(cid:10)ng và logic (cid:7)(cid:10)(cid:26)c yêu c(cid:2)u. Các ontology s% d!ng v(cid:17)n t(cid:30) v(cid:13)ng chính c$a tri th(cid:27)c (cid:7)(cid:10)(cid:26)c yêu c(cid:2)u (cid:7)(cid:28) (cid:7)(cid:19)nh ngh a các khái ni(cid:9)m và m(cid:17)i quan h(cid:9) mà các tr(cid:10)(cid:4)ng h(cid:26)p c$a khái ni(cid:9)m (cid:7)ó n(cid:16)m gi(cid:25). Xây d#ng ki(cid:28)n trúc Web ng% ngh!a: 3.3.1. Ki(cid:8)n trúc Web ng(cid:25) ngh a (cid:7)(cid:10)(cid:26)c phát tri(cid:28)n d(cid:13)a trên ý t(cid:10)(cid:3)ng c$a vi(cid:9)c chú thích các trang Web b0ng các th, RDF và OWL (cid:7)(cid:28) bi(cid:28)u di-n chi ti(cid:8)t các ontology ng(cid:25) ngh a. Tuy nhiên, gi(cid:20)i h(cid:11)n c$a các h(cid:9) th(cid:17)ng này là chúng ch& x% lí các trang Web (cid:7)ã (cid:7)(cid:10)(cid:26)c chú thích b0ng nh(cid:25)ng th, ng(cid:25) ngh a c! th(cid:28). Ontology mô t(cid:5) các khái ni(cid:9)m và m(cid:17)i quan h(cid:9) v(cid:20)i m(cid:23)t t(cid:14)p t(cid:30) v(cid:13)ng tiêu bi(cid:28)u. M!c (cid:7)ích c$a vi(cid:9)c xây d(cid:13)ng ontology là chia s, và s% d!ng l(cid:11)i tri th(cid:27)c. T(cid:30) khi Web ng(cid:25) ngh a là m(cid:23)t m(cid:11)ng phân tán, có nh(cid:25)ng ontology khác nhau mô t(cid:5) nh(cid:25)ng (cid:7)i(cid:31)u t(cid:10)(cid:6)ng (cid:7)(cid:10)(cid:6)ng m(cid:23)t cách ng(cid:25) ngh a. K(cid:8)t qu(cid:5) là, c(cid:2)n thi(cid:8)t (cid:7)(cid:28) l(cid:14)p s(cid:6) (cid:7)1 các y(cid:8)u t(cid:17) c$a nh(cid:25)ng ontology này n(cid:8)u chúng ta mu(cid:17)n x% lí thông tin trên qui mô c$a Web. M(cid:23)t ti(cid:8)p c(cid:14)n cho tìm ki(cid:8)m ng(cid:25) ngh a có th(cid:28) d(cid:13)a trên vi(cid:9)c phân lo(cid:11)i v(cid:18)n b(cid:5)n cho nh(cid:25)ng ánh x(cid:11) 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 92 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh ontology so sánh m(cid:15)i y(cid:8)u t(cid:17) c$a m(cid:23)t ontology này v(cid:20)i m(cid:15)i y(cid:8)u t(cid:17) c$a ontology khác, (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc và sau (cid:7)ó (cid:7)(cid:19)nh ngh a quan h(cid:9) t(cid:10)(cid:6)ng (cid:7)(cid:10)(cid:6)ng trên m(cid:15)i m(cid:23)t c"p c(cid:6) s(cid:3). Nh(cid:25)ng item (cid:7)(cid:10)(cid:26)c liên k(cid:8)t có giá tr(cid:19) t(cid:10)(cid:6)ng (cid:7)(cid:10)(cid:6)ng c$a nó l(cid:20)n h(cid:6)n m(cid:23)t ng(cid:10)(cid:22)ng nào (cid:7)ó. L*p ch3 m(cid:24)c ng% ngh!a ti(cid:22)m tàng: 3.3.2. Bây gi(cid:4) chúng ta (cid:7)(cid:31) c(cid:14)p (cid:7)(cid:8)n vi(cid:9)c th(cid:13)c thi Latent Semantic Indexing (LSI – l(cid:14)p ch& m!c ng(cid:25) ngh a ti(cid:31)m tàng) có th(cid:28) c(cid:5)i ti(cid:8)n nh(cid:25)ng kh(cid:5) n(cid:18)ng tìm ki(cid:8)m ngày nay mà không có nh(cid:25)ng gi(cid:20)i h(cid:11)n nghiêm tr(cid:12)ng c$a m(cid:11)ng Web ng(cid:25) ngh a r(cid:23)ng l(cid:20)n. Vi(cid:9)c d(cid:13)a vào tiêu chu5n c$a (cid:7)(cid:23) chính xác, ph5m ch#t và s(cid:13) thu h1i (cid:7)òi h2i nhi(cid:31)u h(cid:6)n “s(cid:27)c m(cid:11)nh c(cid:6) b(cid:16)p”. Gán các công c! mô t(cid:5) và phân lo(cid:11)i cho v(cid:18)n b(cid:5)n cung c#p m(cid:23)t thu(cid:14)n l(cid:26)i quan tr(cid:12)ng, b0ng cách tr(cid:5) v(cid:31) các tài li(cid:9)u không c(cid:2)n ch(cid:27)a liên k(cid:8)t theo t(cid:30)ng ch(cid:25) m(cid:23)t cho truy v#n tìm ki(cid:8)m c$a chúng ta. Các b(cid:23) d(cid:25) li(cid:9)u (cid:7)(cid:10)(cid:26)c mô t(cid:5) (cid:7)(cid:2)y (cid:7)$ có th(cid:28) cung c#p m(cid:23)t b(cid:27)c tranh v(cid:31) ph(cid:11)m vi và s(cid:13) phân tán c$a b(cid:23) s(cid:10)u t(cid:14)p tài li(cid:9)u nói chung. (cid:1)i(cid:31)u này có th(cid:28) (cid:7)(cid:10)(cid:26)c th(cid:13)c hi(cid:9)n b(cid:3)i vi(cid:9)c nghiên c(cid:27)u c#u trúc c$a các danh m!c và các danh m!c con ((cid:7)(cid:10)(cid:26)c g(cid:12)i là s(cid:13) phân lo(cid:11)i_ taxonomy). M(cid:23)t tr(cid:3) ng(cid:11)i nghiêm tr(cid:12)ng cho s(cid:13) ti(cid:8)p c(cid:14)n (cid:7)(cid:8)n vi(cid:9)c phân lo(cid:11)i d(cid:25) li(cid:9)u này là v#n (cid:7)(cid:31) v(cid:17)n có trong b#t c(cid:27) ki(cid:28)u c$a taxonomy – trên th(cid:8) gi(cid:20)i (cid:7)ôi khi ch(cid:17)ng l(cid:11)i s(cid:13) phân lo(cid:11)i. Ví d!, cà chua là trái cây hay rau qu(cid:5)? Và (cid:7)i(cid:31)u gì x(cid:5)y ra khi chúng ta k(cid:8)t n(cid:17)i hai t(cid:14)p tài li(cid:9)u (cid:7)(cid:10)(cid:26)c ch& m!c trong nh(cid:25)ng h(cid:10)(cid:20)ng khác nhau? Các gi(cid:5)i pháp (cid:7)(cid:10)(cid:26)c g(cid:12)i là các “ontology taxonomy” (phân lo(cid:11)i ontology). Các tìm ki(cid:8)m t(cid:30) khoá thông th(cid:10)(cid:4)ng ti(cid:8)p c(cid:14)n m(cid:23)t t(cid:14)p tài li(cid:9)u mà m(cid:23)t tài li(cid:9)u ch(cid:27)a hay không ch(cid:27)a m(cid:23)t t(cid:30) (cid:7)(cid:10)a ra. Ch& m!c ng(cid:25) ngh a ti(cid:31)m tàng (LSI) thêm m(cid:23)t b(cid:10)(cid:20)c quan tr(cid:12)ng cho vi(cid:9)c x% lí ch& m!c tài li(cid:9)u. Thêm vào vi(cid:9)c ghi nh(cid:25)ng t(cid:30) khoá mà m(cid:23)t tài li(cid:9)u ch(cid:27)a, ph(cid:10)(cid:6)ng pháp này kh(cid:5)o sát toàn b(cid:23) t(cid:14)p d(cid:25) li(cid:9)u, (cid:7)(cid:28) th#y nh(cid:25)ng tài li(cid:9)u khác ch(cid:27)a m(cid:23)t s(cid:17) t(cid:30) t(cid:10)(cid:6)ng (cid:7)(cid:10)(cid:6)ng v(cid:20)i các t(cid:30) (cid:7)ó. LSI (cid:7)(cid:10)(cid:26)c phát tri(cid:28)n (cid:7)(cid:2)u tiên (cid:3) Bellcore trong cu(cid:17)i nh(cid:25)ng n(cid:18)m 80. LSI xem các tài li(cid:9)u có nhi(cid:31)u t(cid:30) thông d!ng là có ngh a, và xem nh(cid:25)ng tài li(cid:9)u ít t(cid:30) thông d!ng là có ít ng(cid:25) ngh a. M"c dù thu(cid:14)t gi(cid:5)i LSI không hi(cid:28)u tí gì v(cid:31) ngh a c$a các 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 93 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh t(cid:30), nó nh(cid:14)n ra các khuôn m(cid:21)u. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc Khi b(cid:11)n tìm ki(cid:8)m m(cid:23)t c(cid:6) s(cid:3) d(cid:25) li(cid:9)u ch& m!c LSI, công c! tìm ki(cid:8)m này xem xét nh(cid:25)ng giá tr(cid:19) t(cid:10)(cid:6)ng t(cid:13) mà nó tính toán cho m(cid:15)i t(cid:30) c$a n(cid:23)i dung, và tr(cid:5) v(cid:31) các tài li(cid:9)u mà nó ngh là thích h(cid:26)p nh#t v(cid:20)i câu truy v#n. B(cid:3)i vì hai tài li(cid:9)u có th(cid:28) r#t g(cid:2)n ngh a v(cid:20)i nhau th(cid:14)m chí n(cid:8)u chúng không cùng chung m(cid:23)t t(cid:30) khoá (cid:7)"c bi(cid:9)t, LSI không yêu c(cid:2)u m(cid:23)t s(cid:13) phân tích l#y t(cid:10)(cid:6)ng x(cid:27)ng (cid:7)(cid:28) tr(cid:5) v(cid:31) các k(cid:8)t qu(cid:5) h(cid:25)u d!ng. ( nh(cid:25)ng v(cid:19) trí mà m(cid:23)t tìm ki(cid:8)m theo t(cid:30) khoá (cid:7)(cid:6)n gi(cid:5)n s* không th(cid:13)c hi(cid:9)n (cid:7)(cid:10)(cid:26)c n(cid:8)u không có phân tích l#y t(cid:10)(cid:6)ng x(cid:27)ng, thì LSI s* th(cid:10)(cid:4)ng tr(cid:5) v(cid:31) nh(cid:25)ng tài li(cid:9)u liên quan mà không ch(cid:27)a t#t c(cid:5) nh(cid:25)ng t(cid:30) khoá (cid:7)ó. 3.3.2.1. Tìm ki(cid:28)m l(y n(cid:25)i dung Vi(cid:9)c l(cid:14)p ch& m!c ng(cid:25) ngh a ti(cid:31)m tàng xem xét các m(cid:21)u t(cid:30) trong m(cid:23)t t(cid:14)p tài li(cid:9)u. Ngôn ng(cid:25) t(cid:13) nhiên có nhi(cid:31)u nh(cid:25)ng t(cid:30) không c(cid:2)n thi(cid:8)t, và không ph(cid:5)i m(cid:15)i t(cid:30) xu#t hi(cid:9)n trong tài li(cid:9)u (cid:7)(cid:31)u ch(cid:27)a ng(cid:25) ngh a. Các t(cid:30) (cid:7)(cid:10)(cid:26)c s% d!ng th(cid:10)(cid:4)ng xuyên trong ti(cid:8)n Anh th(cid:10)(cid:4)ng không ch(cid:27)a n(cid:23)i dung, ví d! nh(cid:10) các t(cid:30) ch(cid:27)c n(cid:18)ng, liên t(cid:30), gi(cid:20)i t(cid:30), và các (cid:7)(cid:23)ng t(cid:30) th(cid:10)(cid:4)ng. B(cid:10)(cid:20)c (cid:7)(cid:2)u tiên trong vi(cid:9)c th(cid:13)c thi LSI là ch(cid:12)n l(cid:12)c nh(cid:25)ng t(cid:30) xa l(cid:11) t(cid:30) m(cid:23)t tài li(cid:9)u. (cid:1)(cid:28) thu (cid:7)(cid:10)(cid:26)c n(cid:23)i dung ng(cid:25) ngh a t(cid:30) m(cid:23)t tài li(cid:9)u: 3.3.2.2. Stemming (lemmatize) 1. T(cid:11)o m(cid:23)t danh sách hoàn ch&nh t#t c(cid:5) các t(cid:30) xu#t hi(cid:9)n trong b(cid:23) s(cid:10)u t(cid:14)p.
2. L(cid:10)(cid:26)c b2 các m(cid:11)o t(cid:30), các gi(cid:20)i t(cid:30), và các liên t(cid:30)
3. L(cid:10)(cid:26)c b2 các (cid:7)(cid:23)ng t(cid:30) thông d!ng (know, see, do, be…)
4. L(cid:10)(cid:26)c b2 các (cid:7)(cid:11)i t(cid:30)
5. L(cid:10)(cid:26)c b2 các tính t(cid:30) thông d!ng (big, late, high…)
6. L(cid:10)(cid:26)c b2 các t(cid:30) “frilly” (therefore, thus, however, albeit,…)
7. L(cid:10)(cid:26)c b2 m(cid:23)t s(cid:17) t(cid:30) xu#t hi(cid:9)n trong m(cid:12)i tài li(cid:9)u.
8. L(cid:10)(cid:26)c b2 các t(cid:30) xu#t hi(cid:9)n ch& trong m(cid:23)t tài li(cid:9)u. Công c! tìm ki(cid:8)m ng(cid:25) ngh a là m(cid:23)t gi(cid:5)i pháp hi(cid:9)u qu(cid:5) (cid:7)áng chú ý. Nó có th(cid:28) 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 94 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh phát hi(cid:9)n (cid:7)(cid:10)(cid:26)c 2 tài li(cid:9)u t(cid:10)(cid:6)ng t(cid:13) nhau th(cid:14)m chí n(cid:8)u chúng không có b#t k3 m(cid:23)t t(cid:30) (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc nào chung và công c! tìm ki(cid:8)m ng(cid:25) ngh a này có th(cid:28) lo(cid:11)i b2 nh(cid:25)ng tài li(cid:9)u ch& dùng chung nh(cid:25)ng t(cid:30) quan tâm m(cid:23)t cách ph. bi(cid:8)n. M(cid:23)t s(cid:17) công vi(cid:9)c kh(cid:3)i (cid:7)(cid:2)u c(cid:2)n thi(cid:8)t (cid:7)(cid:28) thu th(cid:14)p tài li(cid:9)u s6n sàng cho vi(cid:9)c l(cid:14)p ch& m!c thì r#t (cid:7)"c tr(cid:10)ng ngôn ng(cid:25), ch+ng h(cid:11)n nh(cid:10) stemming (lemmatize). (cid:1)(cid:17)i v(cid:20)i các tài li(cid:9)u ti(cid:8)ng Anh, chúng ta s% d!ng thu(cid:14)t toán (cid:7)(cid:10)(cid:26)c g(cid:12)i là The Porter Stemmer (cid:7)(cid:28) kh% các ph(cid:2)n (cid:7)uôi thông th(cid:10)(cid:4)ng c$a t(cid:30), (cid:7)(cid:28) tr(cid:5) v(cid:31) d(cid:11)ng g(cid:17)c c$a nó. (Ví d!: writing
→ write, writes → write, …). Vi(cid:9)c (cid:7)(cid:2)u tiên là áp d!ng (cid:7)(cid:17)i v(cid:20)i các tài li(cid:9)u riêng bi(cid:9)t, và chúng ta gán cho nó m(cid:23)t tr(cid:12)ng s(cid:17) c!c b(cid:23). Các t(cid:30) xu#t hi(cid:9)n nhi(cid:31)u l(cid:2)n trong m(cid:23)t tài li(cid:9)u thì có tr(cid:12)ng s(cid:17) l(cid:6)n h(cid:6)n nh(cid:25)ng t(cid:30) ch& xu#t hi(cid:9)n 1 l(cid:2)n. Chúng ta (cid:7)(cid:10)a ra m(cid:23)t gi(cid:5)i thu(cid:14)t t(cid:11)o ra trang web c$a các tài li(cid:9)u và các t(cid:30) – liên k(cid:8)t t#t c(cid:5) các tài li(cid:9)u v(cid:20)i các t(cid:30). Cho m(cid:23)t mô hình các t(cid:30) và các tài li(cid:9)u, m(cid:23)t ng(cid:10)(cid:4)i có th(cid:28) thi(cid:8)t l(cid:14)p các giá tr(cid:19) d(cid:13)a trên s(cid:13) khác bi(cid:9)t c$a tài li(cid:9)u so v(cid:20)i các tài li(cid:9)u khác. ‘Giá tr(cid:19)’ c$a m(cid:23)t tài li(cid:9)u b#t k3 so v(cid:20)i các tài li(cid:9)u khác có th(cid:28) (cid:7)(cid:10)(cid:26)c thi(cid:8)t k(cid:8) nh(cid:10) là m(cid:23)t hàm c$a s(cid:17) l(cid:10)(cid:26)ng các k(cid:8)t n(cid:17)i mà ph(cid:5)i (cid:7)(cid:10)(cid:26)c thông qua (cid:7)(cid:28) thi(cid:8)t l(cid:14)p m(cid:23)t k(cid:8)t n(cid:17)i gi(cid:25)a các tài li(cid:9)u. N(cid:8)u 2 tài li(cid:9)u (cid:7)(cid:10)(cid:26)c liên k(cid:8)t v(cid:20)i nhau b(cid:3)i nhi(cid:31)u (cid:7)(cid:10)(cid:4)ng (cid:7)i ((cid:7)(cid:10)(cid:4)ng k(cid:8)t n(cid:17)i) thì hai tài li(cid:9)u này có th(cid:28) có cùng m(cid:23)t m(cid:27)c (cid:7)(cid:23) t(cid:10)(cid:6)ng quan. Tr(cid:12)ng s(cid:17) c$a t(cid:30) là s# chu,n hoá c a 2 t" có ngh!a thông th(cid:14)7ng:
- Các t(cid:30) xu#t hi(cid:9)n nhi(cid:31)u l(cid:2)n trong m(cid:23)t tài li(cid:9)u thì có nhi(cid:31)u ng(cid:25) ngh a h(cid:6)n t(cid:30) ch& xu#t hi(cid:9)n m(cid:23)t l(cid:2)n. - Nh(cid:25)ng t(cid:30) (cid:7)(cid:10)(cid:26)c s% d!ng th(cid:10)(cid:4)ng xuyên thì có th(cid:28) (cid:7)áng quan tâm h(cid:6)n nh(cid:25)ng t(cid:30) bình th(cid:10)(cid:4)ng. Mô t(cid:5) gi(cid:5)i thu(cid:14)t: V(cid:20)i m(cid:15)i tài li(cid:9)u: 1. “Stem” (l(cid:10)(cid:26)c b2 ti(cid:31)n t(cid:17) và h(cid:14)u t(cid:17)) t#t cá các t(cid:30) và b2 (cid:7)i nh(cid:25)ng t(cid:30) có ngh a th(cid:10)(cid:4)ng xuyên xu#t hi(cid:9)n. 2. (cid:1)(cid:17)i v(cid:20)i m(cid:15)i t(cid:30): 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 95 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh a. (cid:1)ánh d#u l(cid:11)i m(cid:15)i tài li(cid:9)u mà có m(cid:17)i quan h(cid:9) tr(cid:13)c ti(cid:8)p (cid:7)(cid:8)n t(cid:30) này. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc b. Tính (cid:7)i(cid:28)m cho m(cid:15)i tài li(cid:9)u d(cid:13)a trên hàm tính kho(cid:5)ng cách t(cid:30) tài li(cid:9)u xu#t phát (cid:7)(cid:8)n các m(cid:17)i quan h(cid:9) c$a t(cid:30). 3. V(cid:20)i m(cid:15)i tài li(cid:9)u có m(cid:17)i quan h(cid:9) m(cid:20)i ch(cid:10)a (cid:7)(cid:10)(cid:26)c (cid:7)ánh d#u thì ti(cid:8)n hành l(cid:10)u v(cid:8)t. L"p l(cid:11)i các thao tác nh(cid:10) trên m(cid:23)t cách (cid:7)(cid:9) qui. Gi(cid:5)i thu(cid:14)t tính tr(cid:12)ng s(cid:17) chi ti(cid:8)t (cid:7)(cid:10)(cid:26)c s% d!ng nh(cid:10) sau: 1. (cid:1)(cid:17)i v(cid:20)i m(cid:15)i l(cid:2)n t(cid:18)ng kho(cid:5)ng cách, chia (cid:7)i(cid:28)m s(cid:17) cho 2. 2. (cid:1)i(cid:28)m s(cid:17) cho m(cid:15)i tài li(cid:9)u b0ng v(cid:20)i giá tr(cid:19) gi(cid:20)i h(cid:11)n chia cho c(cid:18)n b(cid:14)c hai tính ph. bi(cid:8)n c$a t(cid:30). Toàn b(cid:23) thu(cid:14)t gi(cid:5)i này (cid:7)(cid:10)a ra m(cid:23)t cái nhìn ng(cid:25) ngh a th#p d(cid:13)a vào (cid:7)(cid:10)(cid:4)ng (cid:7)i t(cid:30) m(cid:23)t tài li(cid:9)u (cid:7)(cid:8)n s(cid:6) (cid:7)1 t(cid:30). Chu5n (cid:7)(cid:10)(cid:26)c trình bày (cid:3) (cid:7)ây là tr(cid:10)(cid:4)ng h(cid:26)p (cid:7)(cid:6)n gi(cid:5)n nh#t và nó có th(cid:28) (cid:7)(cid:10)(cid:26)c c(cid:5)i ti(cid:8)n theo nhi(cid:31)u cách khác nhau. Có nhi(cid:31)u gi(cid:5)i thu(cid:14)t tính (cid:7)i(cid:28)m khác có th(cid:28) (cid:7)(cid:10)(cid:26)c s% d!ng. Thêm vào (cid:7)ó, m(cid:23)t t(cid:30) (cid:7)i(cid:28)n (cid:7)1ng ngh a có th(cid:28) (cid:7)(cid:10)(cid:26)c áp d!ng (cid:7)(cid:28) giúp kh(cid:16)c ph!c các v#n (cid:7)(cid:31) ng(cid:25) ngh a. M(cid:23)t th% thách (cid:7)áng quan tâm là làm cho gi(cid:5)i thu(cid:14)t làm vi(cid:9)c (cid:7)(cid:28) mà khi các tài li(cid:9)u m(cid:20)i (cid:7)(cid:10)(cid:26)c thêm vào chúng s* l(cid:14)p t(cid:27)c t(cid:13) tính (cid:7)i(cid:28)m. M(cid:23)t thách th(cid:27)c khác là tìm ra 3.3. Mô hình (cid:30)(cid:22) ngh- cho ’ng d(cid:24)ng tìm ki(cid:28)m ng% ngh!a trên l!nh v#c eDoc m(cid:23)t cách mà có th(cid:28) (cid:7)(cid:10)a gi(cid:5)i thu(cid:14)t (cid:7)(cid:8)n nhi(cid:31)u máy. T(cid:30) nh(cid:25)ng c(cid:6) s(cid:3) lí thuy(cid:8)t (cid:7)ã nghiên c(cid:27)u trên, chúng em t.ng h(cid:26)p l(cid:11)i và (cid:7)(cid:31) ngh(cid:19) 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 96 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh mô hình cho (cid:27)ng d!ng tìm ki(cid:8)m ng(cid:25) ngh a trong l nh v(cid:13)c eDoc. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc Web Browser Search engine Corpora Ontology Metadata eDoc Hình 16: Mô hình (cid:30)(cid:22) ngh- cho ’ng d(cid:24)ng tìm ki(cid:28)m ng% ngh!a trên l!nh v#c eDoc (cid:3) Web Browser: (cid:1)óng vai trò giao di(cid:9)n giao ti(cid:8)p v(cid:20)i ng(cid:10)(cid:4)i dùng. Nó th(cid:13)c hi(cid:9)n vai trò ti(cid:8)p nh(cid:14)n câu truy v#n c$a ng(cid:10)(cid:4)i dùng và hi(cid:28)n th(cid:19) k(cid:8)t qu(cid:5) câu truy v#n. (cid:3) Search engine: (cid:1)ây là ph(cid:2)n chính c$a ch(cid:10)(cid:6)ng trình. Search engine th(cid:13)c hi(cid:9)n t#t c(cid:5) các thao tác x% lí c(cid:2)n có c$a h(cid:9) th(cid:17)ng: 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 97 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh (cid:2) (cid:1)óng vai trò nh(cid:10) web robot, thu th(cid:14)p tài li(cid:9)u (cid:7)i(cid:9)n t% trên m(cid:11)ng. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc (cid:2) Th(cid:13)c hi(cid:9)n nh(cid:10) b(cid:23) l(cid:12)c, search engine ti(cid:8)n hành thu th(cid:14)p, x% lí, rút trích siêu d(cid:25) li(cid:9)u cho các tài li(cid:9)u b0ng cách phân tách t(cid:30), l(cid:10)(cid:26)c b2 nh(cid:25)ng t(cid:30) không c(cid:2)n thi(cid:8)t ch& gi(cid:25) l(cid:11)i danh sách các danh t(cid:30) và (cid:7)(cid:23)ng t(cid:30), sau (cid:7)ó ti(cid:8)n hành th(cid:17)ng kê t(cid:2)n s(cid:17) xu#t hi(cid:9)n c$a các l nh v(cid:13)c trong tài li(cid:9)u và cu(cid:17)i cùng l(cid:10)u tr(cid:25) siêu d(cid:25) li(cid:9)u cho n(cid:23)i dung c$a tài li(cid:9)u (cid:7)ó, s% d!ng chu5n siêu d(cid:25) li(cid:9)u Dublin Core.
(cid:2) T. ch(cid:27)c và l(cid:10)u tr(cid:25) các Ontology cho m(cid:17)i quan h(cid:9) ng(cid:25) ngh a gi(cid:25)a các (cid:7)(cid:17)i t(cid:10)(cid:26)ng trong th(cid:13)c t(cid:8). Hình th(cid:27)c t. ch(cid:27)c, l(cid:10)u tr(cid:25) d(cid:11)ng t(cid:14)p tin RDF.
(cid:2) T. ch(cid:27)c và l(cid:10)u tr(cid:25) các kho ng(cid:25) li(cid:9)u (corpora). (cid:1)ây c/ng (cid:7)(cid:10)(cid:26)c xem là m(cid:23)t Ontology, bi(cid:28)u di-n m(cid:17)i quan h(cid:9) thành ph(cid:2)n_b(cid:23) ph(cid:14)n c$a (cid:7)(cid:17)i t(cid:10)(cid:26)ng, (cid:7)1ng th(cid:4)i kho ng(cid:25) li(cid:9)u c/ng cho phép xác (cid:7)(cid:19)nh các t(cid:30) (cid:7)1ng ngh a v(cid:20)i nhau d(cid:13)a vào khái ni(cid:9)m synset. (Chi ti(cid:8)t v(cid:31) các kho ng(cid:25) li(cid:9)u (cid:7)(cid:10)(cid:26)c mô t(cid:5) bên d(cid:10)(cid:20)i). S% d!ng hình th(cid:27)c l(cid:10)u tr(cid:25) b(cid:5)ng trong SQL Server vì d(cid:25) li(cid:9)u này có nhu c(cid:2)u truy v#n cao. (cid:2) Thi(cid:8)t k(cid:8) siêu d(cid:25) li(cid:9)u (cid:7)(cid:28) mô t(cid:5) m(cid:17)i quan h(cid:9) gi(cid:25)a các tài nguyên (các tài li(cid:9)u eDoc) v(cid:20)i các (cid:7)(cid:17)i t(cid:10)(cid:26)ng trong Ontology. C/ng s% d!ng hình th(cid:27)c l(cid:10)u tr(cid:25) d(cid:11)ng c(cid:6) s(cid:3) d(cid:25) li(cid:9)u quan h(cid:9).
(cid:2) Th(cid:13)c hi(cid:9)n phân tích câu truy v#n c$a ng(cid:10)(cid:4)i dùng, l#y nh(cid:25)ng t(cid:30) quan tr(cid:12)ng, t(cid:30) (cid:7)ó phân tích ng(cid:25) ngh a c$a câu truy v#n d(cid:13)a vào Word Net và các Ontology (cid:7)1ng th(cid:4)i truy v#n các siêu d(cid:25) li(cid:9)u (cid:7)(cid:28) tr(cid:5) v(cid:31) cho Web Browser các tài li(cid:9)u (cid:7)úng v(cid:20)i ng(cid:25) ngh a câu truy v#n c$a ng(cid:10)(cid:4)i dùng. (cid:3) eDoc Ch& t#t c(cid:5) các tài li(cid:9)u (cid:7)i(cid:9)n t% trên m(cid:11)ng, c! th(cid:28) là các file d(cid:11)ng HTML, PDF, 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 98 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh CHM, ASP, PHP… (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc Nh(cid:14)n câu
truy v#n Hi(cid:28)n th(cid:19)
k(cid:8)t qu(cid:5) Câu truy v#n Tài li(cid:9)u tr(cid:5) v(cid:31) Ontology X% lí truy
v#n Metadata L(cid:10)u vào c(cid:6)
s(cid:3) d(cid:25) li(cid:9)u Thu th(cid:14)p
tài li(cid:9)u X% lí tài
li(cid:9)u Tài li(cid:9)u
eDoc Thông tin tài
li(cid:9)u Ontology Internet Hình 17: Qui trình x(cid:23) lý c a t+ng search engine 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 99 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh Qui trình x(cid:23) lí c a t+ng search engine: (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc 3.4. Các gi(cid:19)i thu*t s(cid:23) d(cid:24)ng Gi(cid:19)i thu*t x(cid:23) lý tài li&u: 3.4.1. Tài li(cid:9)u sau khi (cid:7)(cid:10)(cid:26)c thu th(cid:14)p v(cid:31) s* (cid:7)(cid:10)(cid:26)c x% lí thông qua b(cid:23) l(cid:12)c. S(cid:6) (cid:7)1 gi(cid:5)i eDoc thu(cid:14)t: text chuy6n sang
text l(cid:14)(cid:29)c b: nh%ng t"
không quan tr)ng Kho
ng% li&u Danh t" và (cid:30)(cid:25)ng
t" lemmatize Kho
ng% li&u Danh t" và (cid:30)(cid:25)ng
t" nguyên m(cid:21)u Các key word
và thông tin
tài li&u th(cid:26)ng kê t+n s(cid:26) xu(t
hi&n c a t" và l!nh
v#c c a tài li&u 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 100 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh Hình 18: Gi(cid:19)i thu*t x(cid:23) lý tài li&u: (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc Gi(cid:19)i thu*t cho b(cid:14)(cid:20)c lemmatize: Kho ng(cid:25) li(cid:9)u s% d!ng cho vi(cid:9)c stemming là WORDNET vì s(cid:17) l(cid:10)(cid:26)ng t(cid:30) trong kho ng(cid:25) li(cid:9)u là khá l(cid:20)n (v(cid:20)i trên 100 000 danh t(cid:30) và 11 000 (cid:7)(cid:23)ng t(cid:30)), các t(cid:30) s% d!ng (cid:3) d(cid:11)ng nguyên m(cid:21)u. Ngoài ra trong t(cid:13) (cid:7)i(cid:28)n c$a WORDNET có file “noun.exc” và “verb.exc”, (cid:7)ây là hai file (cid:7)(cid:28) chuy(cid:28)n các danh t(cid:30) d(cid:11)ng s(cid:17) nhi(cid:31)u b#t qui t(cid:16)c sang s(cid:17) ít và chuy(cid:28)n các (cid:7)(cid:23)ng t(cid:30) quá kh(cid:27) và ti(cid:8)p di-n d(cid:11)ng b#t qui t(cid:16)c v(cid:31) nguyên m(cid:21)u. Các b(cid:10)(cid:20)c stemming (cid:7)(cid:6)n gi(cid:5)n: B1: Ki(cid:28)m tra t(cid:30)ng t(cid:30), n(cid:8)u t(cid:30) này có trong “noun.exc” hay “verb.exc” thì l#y d(cid:11)ng nguyên m(cid:21)u c$a nó. B2: N(cid:8)u không có thì: (cid:3) N(cid:8)u t(cid:30) này k(cid:8)t thúc b0ng “s” thì: ti(cid:8)n hành b2 “s” theo lu(cid:14)t. • N(cid:8)u t(cid:30) k(cid:8)t thúc b0ng “ss”, “chs”, “shs”, “xs”, “is”, “zs” thì (cid:7)ây không ph(cid:5)i là s(cid:17) nhi(cid:31)u. • N(cid:8)u t(cid:30) k(cid:8)t thúc là “ ’s ” thì (cid:7)ây là d(cid:11)ng s(cid:3) h(cid:25)u cách nên b2 hai kí t(cid:13) này. • B2 kí t(cid:13) ‘s’ (cid:3) cu(cid:17)i t(cid:30).
• Ki(cid:28)m tra trong kho ng(cid:25) li(cid:9)u danh t(cid:30) và (cid:7)(cid:23)ng t(cid:30), n(cid:8)u có t(cid:30) này thì (cid:7)ây là t(cid:30) nguyên m(cid:21)u. • N(cid:8)u không có (ngh a là t(cid:30) này ch(cid:10)a (cid:3) d(cid:11)ng nguyên m(cid:21)u) thì:
o N(cid:8)u t(cid:30) k(cid:8)t thúc b0ng “se”, ”che”, “she”, “xe”, “ze” thì b2 kí t(cid:13) ‘e’ sau cùng. o n(cid:8)u t(cid:30) k(cid:8)t thúc b0ng “ie” thì b2 “ie” thêm “y”. (cid:3) N(cid:8)u t(cid:30) này k(cid:8)t th(cid:27)c b0ng “ed” thì: • B2 “ed”.
• Ki(cid:28)m tra trong kho ng(cid:25) li(cid:9)u (cid:7)(cid:23)ng t(cid:30), n(cid:8)u có thì (cid:7)ây là d(cid:11)ng 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 101 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh nguyên m(cid:21)u. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc • N(cid:8)u không có thì: o N(cid:8)u t(cid:30) có hai kí t(cid:13) cu(cid:17)i gi(cid:17)ng nhau thì b2 m(cid:23)t kí t(cid:13) cu(cid:17)i.
o N(cid:8)u t(cid:30) k(cid:8)t thúc b0ng “i” thì thay b0ng “y”.
o Còn các tr(cid:10)(cid:4)ng h(cid:26)p còn l(cid:11)i thì thêm vào cu(cid:17)i kí t(cid:13) ‘e’. (cid:3) N(cid:8)u t(cid:30) này k(cid:8)t th(cid:27)c b0ng “ing” thì: • B2 “ing”.
• Ki(cid:28)m tra trong kho ng(cid:25) li(cid:9)u (cid:7)(cid:23)ng t(cid:30), n(cid:8)u có thì (cid:7)ây là d(cid:11)ng nguyên m(cid:21)u.
• N(cid:8)u không có thì: o N(cid:8)u t(cid:30) có hai kí t(cid:13) cu(cid:17)i gi(cid:17)ng nhau thì b2 m(cid:23)t kí t(cid:13) cu(cid:17)i.
o N(cid:8)u t(cid:30) k(cid:8)t thúc b0ng “y” thì thay “y” b0ng “ie”.
o Còn các tr(cid:10)(cid:4)ng h(cid:26)p còn l(cid:11)i thì thêm vào cu(cid:17)i kí t(cid:13) ‘e’. Gi(cid:19)i thu*t rút trích siêu d% li&u: 3.4.2. Sau khi (cid:7)ã x% lí tài li(cid:9)u (cid:7)(cid:28) l#y các thông tin v(cid:31) tài li(cid:9)u, ch(cid:10)(cid:6)ng trình xây d(cid:13)ng metadata (cid:7)(cid:28) mô t(cid:5) tài li(cid:9)u (cid:7)ó. Metadata s% d!ng chu5n Dublin Core (cid:7)(cid:28) mô t(cid:5) và (cid:7)(cid:10)a 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 102 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh v(cid:31) l(cid:10)u tr(cid:25) d(cid:11)ng RDF. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc Các key word
và thông tin
tài li&u Key
word tiêu
(cid:30)(cid:22) Tác
gi(cid:19) (cid:30)-a ch3
tài li&u Ngôn
ng% DC:
Title DC:
Creator DC:
Subject DC:
Description DC:
Language File RDF Hình 19: Gi(cid:19)i thu*t rút trích siêu d% li&u S% d!ng các tag chính: title: mô t(cid:5) tên tài li(cid:9)u identifier: mô t(cid:5) URI c$a tài li(cid:9)u language: ngôn ng(cid:25) tài li(cid:9)u -
-
-
- description: mô t(cid:5) thông tin tài li(cid:9)u
- subject: các t(cid:30) khoá cho tài li(cid:9)u (m(cid:23)t s(cid:17) trang HTML có th, meta này, k(cid:8)t h(cid:26)p v(cid:20)i m(cid:23)t s(cid:17) t(cid:30) th(cid:17)ng kê (cid:7)(cid:10)(cid:26)c trong n(cid:23)i dung 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 103 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh tài li(cid:9)u). (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc N(cid:23)i dung c$a các tag này ch$ y(cid:8)u (cid:7)(cid:10)(cid:26)c l#y trong ph(cid:2)n HEAD c$a file HTML. Tr(cid:30) tag identifier và subject (cid:7)(cid:10)(cid:26)c thêm vào t(cid:30) thông tin nh(cid:14)n di(cid:9)n tài nguyên c$a robot và thông tin th(cid:17)ng kê key word. Gi(cid:19)i thu*t phân lo4i l!nh v#c cho tài li&u: 3.4.3. M(cid:23)t tài li(cid:9)u, sau khi (cid:7)(cid:10)(cid:26)c rút trích thông tin (cid:3) ph(cid:2)n header, s* (cid:7)(cid:10)(cid:26)c x% lí n(cid:23)i dung (cid:7)(cid:28) phân lo(cid:11)i l nh v(cid:13)c cho nó. Các l nh v(cid:13)c (cid:7)(cid:10)(cid:26)c (cid:7)(cid:10)a ra (cid:7)(cid:28) phân lo(cid:11)i chính là nh(cid:25)ng l(cid:20)p con (subclass) trong ontology. Và hình th(cid:27)c phân lo(cid:11)i là s% d!ng m(cid:23)t t(cid:14)p các t(cid:30) (cid:27)ng v(cid:20)i m(cid:15)i l(cid:20)p con bao g1m các t(cid:30) (cid:7)1ng ngh a và các t(cid:30) chi ti(cid:8)t h(cid:6)n c$a l(cid:20)p con (cid:7)ó, g(cid:12)i là các t(cid:30) chuyên ngành. Vi(cid:9)c xây d(cid:13)ng t(cid:13) (cid:7)i(cid:28)n các t(cid:30) này d(cid:13)a vào kho ng(cid:25) li(cid:9)u WordNet và Tropes (công c! phân lo(cid:11)i v(cid:18)n b(cid:5)n). Ví d!, trong l nh v(cid:13)c “khoa h(cid:12)c máy tính” thì có nh(cid:25)ng l(cid:20)p con nh(cid:10) “máy tính” (computer), “l(cid:14)p trình” (programming)…. Và l(cid:20)p con “máy tính” (computer) l(cid:11)i ch(cid:27)a các t(cid:30) riêng c$a nó nh(cid:10): computing machine, hardware, CPU…. Các b(cid:10)(cid:20)c phân lo(cid:11)i l nh v(cid:13)c: B1: D(cid:13)a vào danh sách các t(cid:30) chuyên ngành, tìm trong tài li(cid:9)u và (cid:7)(cid:8)m s(cid:17) l(cid:2)n xu#t hi(cid:9)n c$a nó, con s(cid:17) này (cid:7)(cid:10)(cid:26)c xem nh(cid:10) là tr(cid:12)ng s(cid:17) c$a t(cid:30) trong tài li(cid:9)u. B2: C(cid:23)ng các tr(cid:12)ng s(cid:17) c$a t(cid:30) trong t(cid:30)ng l(cid:20)p con (cid:7)(cid:28) tính tr(cid:12)ng s(cid:17) cho m(cid:15)i l(cid:20)p con. B3: L(cid:20)p con nào có tr(cid:12)ng s(cid:17) cao nh#t thì (cid:7)(cid:10)(cid:26)c xem là l(cid:20)p t(cid:17)i (cid:10)u và tài li(cid:9)u s* (cid:7)(cid:10)(cid:26)c x(cid:8)p vào l(cid:20)p con (cid:7)ó. Và m(cid:17)i quan h(cid:9) gi(cid:25)a tài li(cid:9)u v(cid:20)i các l(cid:20)p con s* (cid:7)(cid:10)(cid:26)c l(cid:10)u tr(cid:25) theo d(cid:11)ng ch& m!c Doc_Onto. 3.4.4. Gi(cid:19)i thu*t x(cid:23) lí câu truy v(n: Các b(cid:10)(cid:20)c phân tích l nh v(cid:13)c c$a câu truy v#n c/ng (cid:7)(cid:10)(cid:26)c th(cid:13)c hi(cid:9)n t(cid:10)(cid:6)ng t(cid:13) nh(cid:10) gi(cid:5)i thu(cid:14)t phân lo(cid:11)i l nh v(cid:13)c cho tài li(cid:9)u. T(cid:30) vi(cid:9)c phân tích (cid:7)ó, nh(cid:25)ng tài li(cid:9)u thu(cid:23)c l nh v(cid:13)c t(cid:17)i (cid:10)u c$a câu truy v#n s* (cid:7)(cid:10)(cid:26)c (cid:7)(cid:10)a ra và xem nh(cid:10) (cid:7)ó là k(cid:8)t qu(cid:5) tr(cid:5) v(cid:31) cho 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 104 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh ng(cid:10)(cid:4)i dùng. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc 4.1. Gi(cid:20)i thi&u ch(cid:14)(cid:15)ng trình ’ng d(cid:24)ng: Trong ch(cid:10)(cid:6)ng này, chúng em xây d(cid:13)ng m(cid:23)t công c! tìm ki(cid:8)m (cid:7)(cid:28) minh ho(cid:11) cho vi(cid:9)c tìm ki(cid:8)m Web trên Internet có k(cid:8)t h(cid:26)p v(cid:20)i ng(cid:25) ngh a. Mô hình xây d(cid:13)ng (cid:7)(cid:10)(cid:26)c hi(cid:9)n th(cid:13)c d(cid:13)a trên c(cid:6) s(cid:3) áp d!ng và phát tri(cid:28)n các mô hình Web ng(cid:25) ngh a mà chúng em (cid:7)ã trình bày trong các ch(cid:10)(cid:6)ng tr(cid:10)(cid:20)c. Ch(cid:10)(cid:6)ng trình (cid:27)ng d!ng s* th(cid:13)c hi(cid:9)n vi(cid:9)c tìm ki(cid:8)m ng(cid:25) ngh a thông qua các công ngh(cid:9) Web ng(cid:25) ngh a hi(cid:9)n có và các gi(cid:5)i pháp mà chúng em (cid:7)ã (cid:7)(cid:31) xu#t: 4.2. Ki(cid:28)n trúc c a ’ng d(cid:24)ng: - Ch(cid:10)(cid:6)ng trình có s% d!ng công c! RDF Gateway.
- Thi hành trên I.E5.
- Ch(cid:10)(cid:6)ng trình có s% d!ng công c! RDF editor. (cid:1)(cid:28) thi(cid:8)t k(cid:8) công c! tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên eDoc, chúng em (cid:7)(cid:31) xu#t m(cid:23)t ki(cid:28)n trúc mô hình h(cid:15) tr(cid:26) vi(cid:9)c tìm ki(cid:8)m trên Internet và Intranet g1m các công (cid:7)o(cid:11)n sau: (cid:1) Công (cid:30)o4n 1: Thi(cid:28)t k(cid:28) ontology. Các Ontology th(cid:10)(cid:4)ng l(cid:10)u d(cid:10)(cid:20)i d(cid:11)ng t(cid:14)p tin có (cid:7)uôi: .rdf, .rdfs, .owl, .daml, .xml, …. Ontology mô t(cid:5) m(cid:17)i quan h(cid:9) gi(cid:25)a các (cid:7)(cid:17)i t(cid:10)(cid:26)ng trong th(cid:13)c t(cid:8). Ontology do các chuyên gia v(cid:31) các l nh v(cid:13)c (cid:7)ã (cid:7)(cid:10)(cid:26)c t(cid:11)o s6n, (cid:7)(cid:28) s6n trên Internet. (cid:1)"c tính c$a các Ontology này là cho phép m(cid:12)i ng(cid:10)(cid:4)i có th(cid:28) chia s,, t(cid:11)o, (cid:7)(cid:12)c và ghi trên nó. Do (cid:7)ó, chúng ta có th(cid:28) phát tri(cid:28)n Ontology theo ý mu(cid:17)n. Các Ontology c/ng (cid:7)(cid:10)(cid:26)c t(cid:11)o t(cid:30) nh(cid:25)ng t(cid:14)p tin c#u trúc d(cid:11)ng: HTML, RDF, Image, Excel, WinWord, SQL Server, Oracle, …. Các Ontology này s* (cid:7)(cid:10)(cid:26)c t(cid:11)o ra thông qua m(cid:23)t công c! so(cid:11)n th(cid:5)o, sau (cid:7)ó chúng s* (cid:7)(cid:10)(cid:26)c l(cid:10)u d(cid:10)(cid:20)i d(cid:11)ng t(cid:14)p tin có (cid:7)uôi: 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 105 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh .rdf, .rdfs, .owl, .daml, …. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc Các công c! có th(cid:28) dùng (cid:7)(cid:28) so(cid:11)n th(cid:5)o Ontology là: S% d!ng HTML Parser. Protégé RDF Editor …. -
-
-
- (cid:1) Công (cid:30)o4n 2: Xây d#ng ’ng d(cid:24)ng. Các b(cid:10)(cid:20)c chính trong quá trình xây d(cid:13)ng (cid:27)ng d!ng: o B(cid:10)(cid:20)c 1: Dùng các ph(cid:2)n m(cid:31)m nh(cid:10) Crawlers, Spiders, … (cid:7)óng vai trò là các robot thu th(cid:14)p thông tin trên internet, c/ng nh(cid:10) là (cid:7)(cid:28) thu th(cid:14)p các Ontology t(cid:30) trên internet.
o B(cid:10)(cid:20)c 2: Dùng ti(cid:9)n ích RDF Query Analyzer trong ph(cid:2)n m(cid:31)m RDF Gateway (cid:7)(cid:28) (cid:7)(cid:10)a các file Ontology( thu (cid:7)(cid:10)(cid:26)c (cid:3) B(cid:10)(cid:20)c 1 ) vào c(cid:6) s(cid:3) d(cid:25) li(cid:9)u c$a RDF Gateway.
o B(cid:10)(cid:20)c 3: Xây d(cid:13)ng (cid:27)ng d!ng: • Ti(cid:8)n hành phân lo(cid:11)i Ontology ((cid:7)ã thu (cid:7)(cid:10)(cid:26)c) theo nh(cid:25)ng l nh v(cid:13)c c(cid:2)n tìm. • Tài li(cid:9)u sau khi (cid:7)ã thu th(cid:14)p ((cid:3) B(cid:10)(cid:20)c 1), ti(cid:8)n hành rút trích siêu d(cid:25) li(cid:9)u v(cid:20)i các thành ph(cid:2)n quan tâm: title, author, keyword, subject, description, …. R1i phân lo(cid:11)i tài li(cid:9)u theo l nh v(cid:13)c. • Siêu d(cid:25) li(cid:9)u rút trích (cid:7)(cid:10)(cid:26)c s* (cid:7)(cid:10)(cid:26)c (cid:7)(cid:10)a xu(cid:17)ng c(cid:6) s(cid:3) d(cid:25) li(cid:9)u SQL Server. (cid:1)1ng th(cid:4)i c/ng xây d(cid:13)ng m(cid:17)i quan h(cid:9) gi(cid:25)a các (cid:7)(cid:17)i t(cid:10)(cid:26)ng trong Ontology v(cid:20)i siêu d(cid:25) li(cid:9)u rút trích. • V(cid:20)i truy v#n ng(cid:10)(cid:4)i dùng nh(cid:14)p vào, vào c(cid:6) s(cid:3) d(cid:25) li(cid:9)u ti(cid:8)n 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 106 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh hành truy v#n và tr(cid:5) ra k(cid:8)t qu(cid:5) cho ng(cid:10)(cid:4)i dùng. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc 4.3. Mô t(cid:19) ph4m vi ’ng d(cid:24)ng 4.3.1. Mô t(cid:19) bài toán: Trong (cid:27)ng d!ng này, chúng em tích h(cid:26)p các Ontology (l#y t(cid:30) internet) vào m(cid:23)t th(cid:10) m!c (cid:3) máy c!c b(cid:23) (cid:7)(cid:28) ti(cid:9)n cho vi(cid:9)c minh ho(cid:11) (cid:27)ng d!ng. Tuy nhiên, ta có c/ng có th(cid:28) l#y các ontology này tr(cid:13)c ti(cid:8)p t(cid:30) internet. Các ontology (cid:7)(cid:10)(cid:26)c l(cid:10)u vào localhost: http://localhost/eDocSearch/Library/RDF/ ( (cid:7)ây ch& s% d!ng nh(cid:25)ng ontology cho t(cid:30)ng l nh v(cid:13)c nh#t (cid:7)(cid:19)nh, n(cid:8)u m(cid:23)t l nh v(cid:13)c có nhi(cid:31)u ontology ho"c m(cid:23)t ontology (cid:27)ng d!ng cho nhi(cid:31)u l nh v(cid:13)c thì ta ph(cid:5)i ti(cid:8)n hành phân lo(cid:11)i ontology theo l nh v(cid:13)c ( (cid:7)ây là h(cid:10)(cid:20)ng m(cid:3) r(cid:23)ng c$a lu(cid:14)n v(cid:18)n). 7ng d!ng (cid:7)(cid:10)(cid:26)c xây d(cid:13)ng nh0m minh h(cid:12)a cho vi(cid:9)c tìm ki(cid:8)m ng(cid:25) ngh a trên l nh v(cid:13)c edoc, ph(cid:11)m vi (cid:27)ng d!ng gi(cid:20)i h(cid:11)n trong l nh v(cid:13)c nh(cid:10) sau: • Khoa h(cid:12)c máy tính (computer scient).
• Ngh(cid:9) thu(cid:14)t (art) . (cid:3) 4.3.2. Xác (cid:30)-nh yêu c+u: Yêu c+u l(cid:14)u tr%: L(cid:10)u thông tin ng(cid:25) ngh a c(cid:2)n tìm ( các (cid:7)(cid:17)i t(cid:10)(cid:26)ng) t(cid:30) các ontology vào trong CSDL, thông tin mô t(cid:5) các thu(cid:14)t ng(cid:25) t(cid:10)(cid:6)ng (cid:7)(cid:10)(cid:6)ng h(cid:15) tr(cid:26) cho vi(cid:9)c tìm ki(cid:8)m. (cid:3) Yêu c+u tra c’u: Tìm ki(cid:8)m các tài li(cid:9)u liên quan (cid:7)(cid:8)n thu(cid:14)t ng(cid:25) mà ng(cid:10)(cid:4)i dùng gõ vào. (cid:3) Tính hi&u qu(cid:19): K(cid:8)t qu(cid:5) tìm ki(cid:8)m ph(cid:5)i phù h(cid:26)p, chính xác, nhanh chóng theo công ngh(cid:9) Semantic Web. (cid:3) Tính ti(cid:28)n hoá: Các tài li(cid:9)u h(cid:15) tr(cid:26) nhi(cid:31)u tài li(cid:9)u h(cid:6)n, nhi(cid:31)u l nh v(cid:13)c h(cid:6)n, …. (cid:3) Tính t(cid:14)(cid:15)ng thích: 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 107 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh Ng(cid:10)(cid:4)i dùng ch& c(cid:2)n m(cid:23)t trình duy(cid:9)t web và k(cid:8)t n(cid:17)i (cid:7)(cid:10)(cid:26)c (cid:7)(cid:8)n server. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc (cid:3) Tính ti&n d(cid:24)ng: Giao di(cid:9)n thân thi(cid:9)n, d- s% d!ng, ng(cid:10)(cid:4)i dùng ch& c(cid:2)n gõ vào m(cid:23)t thu(cid:14)t ng(cid:25) c(cid:2)n tìm ki(cid:8)m r1i nh#n vào nút Search. (cid:3) Tính b(cid:19)o m*t: Ng(cid:10)(cid:4)i dùng ch& xem (cid:7)(cid:10)(cid:26)c k(cid:8)t qu(cid:5) tra c(cid:27)u d(cid:10)(cid:20)i d(cid:11)ng t nh (htm/html). (cid:3) Tính d; b(cid:19)o trì: 4.4. Xây d#ng ’ng d(cid:24)ng: D- dàng phát tri(cid:28)n hay thêm các ontology thu(cid:14)n l(cid:26)i. Thi(cid:28)t k(cid:28) d% li&u: 4.4.1.
D(cid:25) li(cid:9)u (cid:7)(cid:10)(cid:26)c l(cid:10)u tr(cid:25) trong SQL Server 2000. Bao g1m các b(cid:5)ng: 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 108 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh Hình 20: S(cid:15) (cid:30). d% li&u quan h& c a ’ng d(cid:24)ng (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc Tên b(cid:19)ng Các tr(cid:14)7ng Mô t(cid:19) DOCUMENTS DocID varchar(12) B(cid:5)ng l(cid:10)u tr(cid:25) thông tin Title text c$a các tài li(cid:9)u cùng v(cid:20)i Descript text l nh v(cid:13)c mà tài li(cid:9)u (cid:7)ó URI varchar(200) thu(cid:23)c v(cid:31). Author varchar(200) Datacreate varchar(12) Keywords text Version varchar(50) ScenID char(3) B(cid:5)ng l(cid:10)u tr(cid:25) thông tin ONTOLOGIES OntoID varchar(12) các (cid:7)(cid:17)n t(cid:10)(cid:26)ng c$a Word varchar(50) ontology. ScenID char(3) DOC_ONTO DocID varchar(12) M(cid:17)i quan h(cid:9) gi(cid:25)a tài OntoID varchar(12) li(cid:9)u và các (cid:7)(cid:17)i t(cid:10)(cid:26)ng c$a ontology Có th(cid:28) xem (cid:7)ây là danh WORDS WordID varchar(10) sách các t(cid:30) có th(cid:28) có Word varchar(50) trong m(cid:23)t l nh v(cid:13)c. ScenID char(3) WORD_ONTO WordID varchar(10) Các t(cid:30) tham chi(cid:8)u (cid:7)(cid:8)n OntoID varchar(12) m(cid:23)t (cid:7)(cid:17)i t(cid:10)(cid:26)ng c$a Ontology (cid:1)ây là b(cid:5)ng t(cid:11)m dùng (cid:7)(cid:28) STATISTIC OntoID varchar(12) l(cid:10)u tr(cid:25) s(cid:17) t(cid:30) tìm th#y NumWords int trong tài li(cid:9)u (cid:27)ng v(cid:20)i ScenID char(3) m(cid:23)t (cid:7)(cid:17)i t(cid:10)(cid:26)ng trong Ontology. B(cid:5)ng này s% 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 109 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh d!ng (cid:7)(cid:28) phân lo(cid:11)i tài (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc li(cid:9)u theo m(cid:23)t l nh v(cid:13)c. WORD_TEMP Word varchar(50) (cid:1)ây c/ng là m(cid:23)t b(cid:5)ng Numwords int t(cid:11)m nh0m l(cid:10)u các t(cid:30) có trong tài li(cid:9)u (cid:27)ng (cid:7)(cid:28) sau này l#y các key word cho tài li(cid:9)u. B(cid:19)ng 6 Mô t(cid:19) c(cid:15) s$ d% li&u cho ’ng d(cid:24)ng (cid:12)(cid:31)c bi&t b(cid:5)ng Ontology (cid:7)(cid:10)(cid:26)c xây d(cid:13)ng t(cid:30) nh(cid:25)ng tài li(cid:9)u RDF. S% d!ng RDF gateway (cid:7)(cid:28) truy v#n và cache d(cid:25) li(cid:9)u vào b(cid:5)ng này giúp tìm ki(cid:8)m nhanh chóng và d- dàng h(cid:6)n. Thi(cid:28)t k(cid:28) x(cid:23) lý: 4.4.2. Ch(cid:10)(cid:6)ng trình s% d!ng ngôn ng(cid:25) l(cid:14)p trình C# k(cid:8)t h(cid:26)p v(cid:20)i ASP.NET. S% d!ng SQL Server 2000 (cid:7)(cid:28) l(cid:10)u tr(cid:25) d(cid:25) li(cid:9)u. Ch(cid:10)(cid:6)ng trình có 2 module: STT Module Ý ngh!a 1 eDocSearch Th(cid:13)c hi(cid:9)n giao ti(cid:8)p v(cid:20)i ng(cid:10)(cid:4)i dùng, ti(cid:8)p nh(cid:14)n câu truy v#n, x% lí câu truy v#n, và hi(cid:28)n th(cid:19) k(cid:8)t qu(cid:5) cho ng(cid:10)(cid:4)i dùng. 2 eDocSearchAdministrator Qu(cid:5)n lí c(cid:6) s(cid:3) d(cid:25) li(cid:9)u các t(cid:30), các ontology, các tài li(cid:9)u. Thu th(cid:14)p tài li(cid:9)u t(cid:30) Internet, và x% lí tài li(cid:9)u. 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 110 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh B(cid:19)ng 7 Các module c a ch(cid:14)(cid:15)ng trình (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc Các l(cid:20)p (cid:7)(cid:17)i t(cid:10)(cid:26)ng cho t(cid:30)ng module: (cid:2) Module eDocSearch: STT L(cid:20)p (cid:30)(cid:26)i t(cid:14)(cid:29)ng Ý ngh!a 1 UserQuery.cs Có trách nhi(cid:9)m x% lí câu truy v#n c$a ng(cid:10)(cid:4)i dùng, và tr(cid:5) ra k(cid:8)t qu(cid:5) cho câu truy v#n. B(cid:19)ng 8 Module eDocSearch (cid:2) Module eDocSearchAdministrator: STT L(cid:20)p (cid:30)(cid:26)i t(cid:14)(cid:29)ng Ý ngh!a 1 Database.cs Th(cid:13)c hi(cid:9)n k(cid:8)t n(cid:17)i c(cid:6) s(cid:3) d(cid:25) li(cid:9)u SQL server và RDF gateway. 2 Spider.cs Thu th(cid:14)p tài li(cid:9)u t(cid:30) Internet 3 DocumentProcess.cs Qu(cid:5)n lí c(cid:6) s(cid:3) d(cid:25) li(cid:9)u tài li(cid:9)u ( rút trích metadata cho tài li(cid:9)u, phân lo(cid:11)i l nh v(cid:13)c cho tài li(cid:9)u). 4 TextProcess.cs Có trách nhi(cid:9)m x% lí v(cid:18)n b(cid:5)n (l(cid:10)(cid:26)c b2 các t(cid:30) không quan tr(cid:12)ng, th(cid:13)c hi(cid:9)n “lemmatize”) 5 Word_database.cs Qu(cid:5)n lí c(cid:6) s(cid:3) d(cid:25) li(cid:9)u các t(cid:30) chuyên ngành cho t(cid:30)ng l nh v(cid:13)c. 5 ManageOntology.cs Qu(cid:5)n lí c(cid:6) s(cid:3) d(cid:25) li(cid:9)u Ontology 6 DatabaseProcess.cs X% lí Ontology, chuy(cid:28)n t(cid:30) d(cid:11)ng l(cid:10)u tr(cid:25) RDF sang c(cid:6) s(cid:3) d(cid:25) li(cid:9)u quan h(cid:9) SQL server. 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 111 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh B(cid:19)ng 9 Module eDocSearch (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc 4.5. K(cid:28)t qu(cid:19) ch(cid:14)(cid:15)ng trình Tài li(cid:9)u cho vi(cid:9)c tìm ki(cid:8)m th% nghi(cid:9)m (cid:7)(cid:10)(cid:26)c download v(cid:31) và l(cid:10)u trong máy ch$ (cid:3) th(cid:10) m!c http://localhost/eDocSearch/DataTest/. S(cid:17) l(cid:10)(cid:26)ng tài li(cid:9)u kho(cid:5)ng 500 tài li(cid:9)u cho c(cid:5) hai l nh v(cid:13)c. (cid:4) Th(cid:4)i gian x% lý v(cid:18)n b(cid:5)n ~ 2s/tài li(cid:9)u (cid:4) Th(cid:4)i gian x% lý truy v#n nhanh. (cid:4) Phân lo(cid:11)i v(cid:18)n b(cid:5)n theo l nh v(cid:13)c: 91% Môi tr(cid:10)(cid:4)ng (cid:27)ng d!ng: Máy Celeron, 256 MB RAM, 1.2 GB, hdh Windows XP. Ch(cid:10)(cid:6)ng trình cho phép ng(cid:10)(cid:4)i dùng truy v#n nh(cid:25)ng v#n (cid:7)(cid:31) quan tâm b0ng ngôn ng(cid:25) t(cid:13) nhiên. Giao di(cid:9)n chính c$a ch(cid:10)(cid:6)ng trình: 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 112 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh Hình 21: Giao di&n chính c a ’ng d(cid:24)ng (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc Hình 22: Giao di&n k(cid:28)t qu(cid:19) tìm ki(cid:28)m c a ’ng d(cid:24)ng Giao di(cid:9)n qu(cid:5)n lí tài nguyên: 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 113 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh Hình 23: Giao di&n qu(cid:19)n lí tài nguyên (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc 4.6. Th#c nghi&m ch(cid:14)(cid:15)ng trình (cid:3) Danh sách các câu truy v(n th(cid:23) nghi&m ch(cid:14)(cid:15)ng trình: STT T" truy v(n S(cid:26) tài li&u S(cid:26) tài li&u không tr(cid:19) v(cid:22) (cid:30)úng n(cid:25)i dung Programming 1 14 3 Oop 2 10 1 Asp 3 10 1 Assembly 4 9 2 Java 5 12 3 Visual basic 6 3 0 C# 7 10 1 Data 8 7 3 9 Database 76 33 10 Metadata 32 14 11 Register 0 0 12 Security 5 1 13 Computer science 63 25 14 Computing 47 17 15 Algorithm 45 9 16 Machine 52 17 translation 18 Internet 46 6 19 www 43 18 20 Site 43 18 21 Server 57 22 22 Computer 29 24 23 Hardware 11 7 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 114 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh 17 Computer vision 62 27 (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc 24 Information 9 7 processing 25 Natural language 10 8 processing Sofrware 26 12 6 Freeware 27 7 2 Shareware 28 7 2 29 Virus 6 0 30 Norton antivirus 5 0 31 Graphic 5 3 32 Picture 9 7 33 Artwork 15 7 34 Art school 100 90 35 Artist 12 3 36 Gallery 19 17 37 Museum 19 8 38 Clip art 100 90 39 Painting 36 27 40 Landscape 11 6 B(cid:19)ng 10 Các câu truy v(n th(cid:23) nghi&m (cid:3) K(cid:28)t qu(cid:19) th(cid:26)ng kê truy v(n theo t"ng l!nh v#c: Công th(cid:27)c th(cid:17)ng kê: (cid:1)(cid:23) chính xác c$a l nh v(cid:13)c = trung bình c(cid:23)ng(ph(cid:2)n tr(cid:18)m chính xác c$a t(cid:30)ng t(cid:30) trong l nh v(cid:13)c (cid:7)ó). 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 115 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh 41 Portrait 10 7 (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc (cid:1) Computer & information science: STT Tên l!nh v#c (cid:12)(cid:25) chính xác 1 Programming 87% 2 Data 57% 3 Security 93% 4 Computer science 65% 5 Internet 67% 6 Computer 26% 7 Information science 21% 8 Software 64% 9 Virus 100% B(cid:19)ng 11 Th(cid:26)ng kê l!nh v#c khoa h)c máy tính (cid:1) Art: STT Tên l!nh v#c (cid:12)(cid:25) chính xác 1 Art and artwork 10% 2 Artist 75% 3 Gallery 11% 4 Museum 58% 6 Painting 25% 8 Music 70% 9 Music style 65% B(cid:19)ng 12 Th(cid:26)ng kê l!nh v#c ngh& thu*t. 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 116 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh 5 Art school 10% (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc (cid:3) Nh*n xét: - 7ng d!ng ch& xây d(cid:13)ng trên hai l nh v(cid:13)c là ngh(cid:9) thu(cid:14)t và khoa h(cid:12)c máy tính nên m(cid:12)i tài li(cid:9)u (cid:7)(cid:10)a vào (cid:7)(cid:31)u (cid:7)(cid:10)(cid:26)c phân vào m(cid:23)t trong hai l nh v(cid:13)c này do (cid:7)ó làm gi(cid:5)m (cid:7)i (cid:7)(cid:23) chính xác. - S(cid:17) tài li(cid:9)u tr(cid:5) v(cid:31) cho m(cid:15)i t(cid:30) trong cùng m(cid:23)t l(cid:20)p con trong ontology là không b0ng nhau do ph(cid:10)(cid:6)ng pháp x% lí câu truy v#n là: l#y nh(cid:25)ng tài li(cid:9)u trong cùng l(cid:20)p con c$a ontology và (cid:7)1ng th(cid:4)i l#y nh(cid:25)ng tài li(cid:9)u có t(cid:30) khoá có trong v(cid:20)i t(cid:30) khoá c$a câu truy v#n. - (cid:1)(cid:23) chính xác trong vi(cid:9)c phân lo(cid:11)i tài li(cid:9)u theo t(cid:30)ng l(cid:20)p con ch(cid:10)a cao do các l(cid:20)p con trong ontology thi(cid:8)t k(cid:8) ch(cid:10)a (cid:7)(cid:2)y (cid:7)$, ch(cid:10)a bao hàm h(cid:8)t các khái ni(cid:9)m trong m(cid:23)t l nh v(cid:13)c và s(cid:17) t(cid:30) trong m(cid:23)t l nh v(cid:13)c ch(cid:10)a nhi(cid:31)u và (cid:7)(cid:2)y (cid:7)$. - M"t khác, (cid:7)(cid:23) chính xác trong vi(cid:9)c phân lo(cid:11)i c$a tài li(cid:9)u còn b(cid:19) (cid:5)nh h(cid:10)(cid:3)ng do s(cid:17) l(cid:10)(cid:26)ng t(cid:30) c$a n(cid:23)i dung trong tài li(cid:9)u ít (tài li(cid:9)u ch& ch(cid:27)a (cid:7)a s(cid:17) là các hyperlink và các hình (cid:5)nh). - L nh v(cid:13)c ngh(cid:9) thu(cid:14)t có (cid:7)(cid:23) chính xác th#p do các t(cid:30) trong m(cid:15)i l(cid:20)p con c$a ontology không (cid:7)(cid:10)(cid:26)c phân bi(cid:9)t rõ ràng, m(cid:23)t t(cid:30) có th(cid:28) n0m (cid:3) nhi(cid:31)u l(cid:20)p và s(cid:17) l(cid:10)(cid:26)ng t(cid:30) ít. Tóm l(cid:11)i, ch(cid:10)(cid:6)ng trình (cid:27)ng d!ng (cid:7)(cid:11)t hi(cid:9)u qu(cid:5) t(cid:17)t trong vi(cid:9)c phân lo(cid:11)i tài li(cid:9)u theo l nh v(cid:13)c l(cid:20)n, còn (cid:7)(cid:17)i v(cid:20)i t(cid:30)ng l(cid:20)p con trong m(cid:15)i l nh v(cid:13)c thì hi(cid:9)u qu(cid:5) ch(cid:10)a cao. Ng(cid:10)(cid:4)i qu(cid:5)n tr(cid:19) có th(cid:28) nâng cao hi(cid:9)u qu(cid:5) c$a ch(cid:10)(cid:6)ng trình b0ng cách xây d(cid:13)ng t#t c(cid:5) các l nh v(cid:13)c trong th(cid:13)c t(cid:8), b. sung các t(cid:30) trong t(cid:30)ng l(cid:20)p con c$a m(cid:15)i l nh v(cid:13)c theo xu 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 117 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh h(cid:10)(cid:20)ng càng nhi(cid:31)u t(cid:30) (cid:7)"c tr(cid:10)ng cho l(cid:20)p càng t(cid:17)t (m(cid:27)c cô l(cid:14)p gi(cid:25)a các l(cid:20)p càng cao). (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc 5.1. (cid:12)ánh giá k(cid:28)t qu(cid:19) nghiên c’u (cid:6)u (cid:30)i6m 5.1.1. V(cid:31) c(cid:6) b(cid:5)n lu(cid:14)n v(cid:18)n (cid:7)ã th(cid:13)c hi(cid:9)n t(cid:17)t các n(cid:23)i dung (cid:7)(cid:31) ra và (cid:7)(cid:11)t (cid:7)(cid:10)(cid:26)c m(cid:23)t s(cid:17) k(cid:8)t qu(cid:5) nh#t (cid:7)(cid:19)nh : o Lu(cid:14)n v(cid:18)n (cid:7)ã trình bày c(cid:6) s(cid:3) lý thuy(cid:8)t v(cid:31) nguyên lý v(cid:14)n hành c/ng nh(cid:10) (cid:10)u và khuy(cid:8)t (cid:7)i(cid:28)m c$a m(cid:23)t h(cid:9) th(cid:17)ng search engine. o Lu(cid:14)n v(cid:18)n trình bày rõ mô hình Web ng(cid:25) ngh a cùng v(cid:20)i các (cid:7)(cid:17)i t(cid:10)(cid:26)ng c$a nó nh(cid:10) RDF, OWL, … o Trình bày các v#n (cid:7)(cid:31) v(cid:31) ng(cid:25) ngh a c/ng nh(cid:10) các h(cid:10)(cid:20)ng gi(cid:5)i quy(cid:8)t trong vi(cid:9)c x% lí ngôn ng(cid:25) t(cid:13) nhiên nh0m giúp máy tính “hi(cid:28)u” (cid:7)(cid:10)(cid:26)c câu h2i c$a ng(cid:10)(cid:4)i dùng. o T(cid:30) nh(cid:25)ng c(cid:6) s(cid:3) nghiên c(cid:27)u lí thuy(cid:8)t, lu(cid:14)n v(cid:18)n (cid:7)ã (cid:7)(cid:31) ra mô hình cho vi(cid:9)c xây d(cid:13)ng công c! tìm ki(cid:8)m ng(cid:25) ngh a, và th(cid:13)c hi(cid:9)n cài (cid:7)"t m(cid:23)t công c! tìm ki(cid:8)m các tài li(cid:9)u (cid:7)i(cid:9)n t% phù h(cid:26)p v(cid:20)i ng(cid:25) ngh a c$a câu truy v#n c$a ng(cid:10)(cid:4)i dùng. o Lu(cid:14)n v(cid:18)n có th(cid:28) xác (cid:7)(cid:19)nh t(cid:10)(cid:6)ng (cid:7)(cid:17)i chính xác l nh v(cid:13)c mà tài li(cid:9)u thu(cid:23)c v(cid:31). Và ph(cid:2)n nào xác (cid:7)(cid:19)nh (cid:7)(cid:10)(cid:26)c l nh v(cid:13)c c$a câu truy v#n c$a ng(cid:10)(cid:4)i dùng. (cid:1)(cid:1)(cid:1)(cid:1) Tìm hi(cid:28)u mô hình, n(cid:16)m v(cid:25)ng công ngh(cid:9) tìm ki(cid:8)m ng(cid:25) ngh a (cid:7)(cid:28) Ý ngh a th(cid:13)c ti-n:
(cid:3)(cid:3)(cid:3)(cid:3) áp d!ng chi ti(cid:8)ng Vi(cid:9)t. (cid:1)(cid:1)(cid:1)(cid:1) (cid:1)ây là công c! ph!c v! cho nhu c(cid:2)u phân lo(cid:11)i v(cid:18)n b(cid:5)n, phân lo(cid:11)i Ý ngh a khoa h(cid:12)c:
(cid:3)(cid:3)(cid:3)(cid:3) 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 118 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh tài li(cid:9)u h(cid:12)c t(cid:14)p. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc Khuy(cid:28)t (cid:30)i6m: 5.1.2. Tuy nhiên, do v#n (cid:7)(cid:31) v(cid:31) ng(cid:25) ngh a là m(cid:23)t v#n (cid:7)(cid:31) ph(cid:27)c t(cid:11)p và r(cid:23)ng l(cid:20)n nên lu(cid:14)n v(cid:18)n ch& (cid:7)(cid:31) ra m(cid:23)t s(cid:17) h(cid:10)(cid:20)ng nghiên c(cid:27)u hi(cid:9)n nay (cid:3) m(cid:23)t s(cid:17) l nh v(cid:13)c h(cid:25)u h(cid:11)n, không th(cid:28) bao hàm h(cid:8)t (cid:7)(cid:10)(cid:26)c các khái ni(cid:9)m c/ng nh(cid:10) ngôn ng(cid:25) c$a con ng(cid:10)(cid:4)i. Nh(cid:25)ng v#n (cid:7)(cid:31) (cid:7)(cid:10)(cid:26)c (cid:7)(cid:31) xu#t trong lu(cid:14)n v(cid:18)n nh0m m!c (cid:7)ích (cid:7)(cid:10)a ra m(cid:23)t h(cid:10)(cid:20)ng gi(cid:5)i quy(cid:8)t mang tính ch#t tham kh(cid:5)o nên có th(cid:28) s* có nhi(cid:31)u (cid:7)i(cid:28)m ch(cid:10)a t(cid:17)i (cid:10)u, c(cid:2)n (cid:7)(cid:10)(cid:26)c hoàn thi(cid:9)n h(cid:6)n. Trong ch(cid:10)(cid:6)ng trình (cid:27)ng d!ng, lu(cid:14)n v(cid:18)n s% d!ng c(cid:6) s(cid:3) d(cid:25) li(cid:9)u các t(cid:30) (cid:7)"c tr(cid:10)ng cho t(cid:30) l nh v(cid:13)c, c(cid:6) s(cid:3) d(cid:25) li(cid:9)u này (cid:7)(cid:10)(cid:26)c xây d(cid:13)ng ch$ y(cid:8)u d(cid:13)a vào WordNet, song v(cid:21)n còn h(cid:11)n ch(cid:8) v(cid:31) s(cid:17) l(cid:10)(cid:26)ng các t(cid:30) riêng cho t(cid:30)ng chuyên ngành. N(cid:8)u câu truy v#n c$a ng(cid:10)(cid:4)i dùng h2i v(cid:31) nh(cid:25)ng t(cid:30) không n0m trong c(cid:6) s(cid:3) d(cid:25) li(cid:9)u thì có th(cid:28) s* không tìm th#y k(cid:8)t qu(cid:5). Và vi(cid:9)c phân lo(cid:11)i các t(cid:30) l nh v(cid:13)c mang tính ch$ quan nên có th(cid:28) ch(cid:10)a t(cid:17)i (cid:10)u. Vi(cid:9)c phân lo(cid:11)i tài li(cid:9)u theo l nh v(cid:13)c t(cid:10)(cid:6)ng (cid:7)(cid:17)i t(cid:17)t do có s(cid:17) l(cid:10)(cid:26)ng t(cid:30) khá nhi(cid:31)u nh(cid:10)ng vi(cid:9)c phân lo(cid:11)i câu truy v#n c$a ng(cid:10)(cid:4)i dùng, s% d!ng m(cid:23)t l(cid:10)(cid:26)ng t(cid:30) r#t ít nên có m(cid:23)t s(cid:17) câu truy v#n không có k(cid:8)t qu(cid:5) tr(cid:5) v(cid:31). Ngoài ra, lu(cid:14)n v(cid:18)n ch& s% d!ng c(cid:6) s(cid:3) d(cid:25) li(cid:9)u các tài li(cid:9)u l(cid:10)u s6n v(cid:31) trên máy ch$ nên 5.2. H(cid:14)(cid:20)ng phát tri6n s(cid:17) l(cid:10)(cid:26)ng các tài li(cid:9)u ch(cid:10)a l(cid:20)n. Ch(cid:10)(cid:6)ng trình (cid:27)ng d!ng c$a lu(cid:14)n v(cid:18)n (cid:7)(cid:10)(cid:26)c xây d(cid:13)ng d(cid:13)a trên nh(cid:25)ng v#n (cid:7)(cid:31) c(cid:6) b(cid:5)n, song nó có th(cid:28) phát tri(cid:28)n (cid:7)(cid:28) ngày càng hoàn thi(cid:9)n và t(cid:17)i (cid:10)u h(cid:6)n. Nh(cid:25)ng h(cid:10)(cid:20)ng phát tri(cid:28)n c$a lu(cid:14)n v(cid:18)n: M(cid:3) r(cid:23)ng tìm ki(cid:8)m trong t#t c(cid:5) các l nh v(cid:13)c. Tìm ki(cid:8)m trên nhi(cid:31)u ontology, phân lo(cid:11)i ontology. Th(cid:13)c s(cid:13) tìm ki(cid:8)m online. 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 119 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh -
-
-
- 7ng d!ng cho Ti(cid:8)ng Vi(cid:9)t. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc Lu*n v8n, lu*n án: I. [I.1] (cid:1)"ng Th(cid:19) Qu3nh Chi. Lu(cid:14)n v(cid:18)n th(cid:11)c s tin h(cid:12)c. Nghiên c’u v(cid:22) mô hình, khám phá và khai thác các m(cid:26)i quan h& trên web ng% ngh!a, xây d#ng ’ng d(cid:24)ng. Ng(cid:10)(cid:4)i h(cid:10)(cid:20)ng d(cid:21)n khoa h(cid:12)c: Nguy-n Ti(cid:8)n D/ng.
[I.2] Lê Thuý Ng(cid:12)c, (cid:1)(cid:15) M(cid:29) Nhung. Lu(cid:14)n v(cid:18)n c% nhân tin h(cid:12)c. Tìm hi6u v(cid:22) Search Engine và xây d#ng ’ng d(cid:24)ng minh ho4 cho Search Engine ti(cid:28)ng Sách, eBooks: II. Vi&t. GVHD: Nguy-n Th(cid:19) Di-m Tiên. [II.1] Ying Ding, Dieter Fensel, Michel Klein, and Borys Omelayenko. The Semantic Web: Yet another Hip?. Data and knowedgle engineering, 2002. [II.2] Eero Hyvonen. Semantic web Kick – off in Finland vision, Technologies, Research, and Applications; May 19, 2002 . [II.3] (cid:1)inh (cid:1)i(cid:31)n, Giáo trình X% Lý Ngôn Ng(cid:25) T(cid:13) Nhiên, tháng 12/2004. [II.4] Dr. V. Richard Benjamins, Jesús Contreras; Six challenges for the semantic web; April 2002. [II.5] Nicola Guarino; Some Ontological Principles for Designing Upper Level Lexical Resources; 28 – 30 May 1998. [II.6] Urvi Shah, Tim Finin, Anupam Joshi, R. Scott Cost, James Mayfield;
Information Retrieval on the Semantic Web*. [II.7] Luke K. McDowell; Meaning for the Masses: Theory and Applications for Semantic Web and Semantic Email Systems; 2004. [II.8] Gareth Osler;The Semantic Web Through Semantic Data – A Four Tier 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 120 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh Architecture Model ; 4 Mar 2005. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc [II.9] Julius Stuller; Network of Excellence Semantic Web; 7 June 2002. [II.10] Peter Dolog and Wolfgang Nejdl; Challenges and Benefits of the Semantic Web for User Modelling. [II.11] Pang Wang; A Search Engine Based on the Semantic Web; May, 2003. [II.12] Karen Sparck Jones; What’s new about the Semantic Web? Some questions; December 2004, 18 – 23. [II.13] Mark Klein, Abraham Bernstein; Searching for Services on the Semantic Web Using Process Ontology; July 30 – August 1, 2001. [II.14] Michael Sintek, Stefan Decker; TRIPLE – A Query Language for the Semantic Web; November 2 2001. [II.15] Stefan Decker, Vipul Kashyap; The Semantic Web: Semantics for Data on the Web; September 10 2003. [II.16] Catherine C. Marshall; Taking a Stand on the Semantic Web; 2003. [II.17] Eric Miller, Ralph Swick; Semantic Web Activity: Adcanced Development; 07/09/2003. [II.18] Tim Berners – Lee; Semantic Web Road map; 10/14/1998. [II.19] Raul Corazzon; Ontology. A resource guide for philosophers; 06/01/2005. [II.20] John F.Sowa; Guided Tour of Ontology; June 03 2005. [II.21] John F. Sowa; Building, Sharing, and Merging Ontologies; June 03 2005. [II.22] ISO; Information and documentation – The Dublin Core metadata element set; 02/26/2003. [II.23] IEEE; Draft Standard for Learning Object Metadata; 15 July 2002.
[II.24] Shigeo SUGIMOTO, Jun ADACHI, Stuart WEIBEL; 68th IFLA Council and General Conference; August 24 2002. [II.25] Stiching SURF; DARE use of Dublin Core, version 2.0; December 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 121 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh 2004. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc [II.26] CEN/ISSS MII – DC (WI3) Report; Guidance for the Deployment of Dublin Core Metadata in Corporate Environments; 8/20/2004 DRAFT. [II.27] Kazuhiko Asou, Takako Nakahara, Takao Namiki; A report on Dublin Core based research information service on mathematics; 10/26/2001. [II.28] Western States Digital Standards Group, Metadata Working Group; Western States Dublin Core Metadata Best Practices, Version 2.0; 01/12/2005. [II.29] Jay Cross, CEO, Internet Time Group; eLearning; mid – 1999. [II.30] ADOBE; A primer on electronic document security; 11/2004. [II.31] Gerhard U. Bartsch; Introduction to Electronic Document Management Whitepaper ; March 16 2003. [II.32] Andreas Hotho; Using Ontologies to Improve the Text Custering and Classification Task; January 14 2005. [II.33] Norman Paskin; DOI: implementing a standard digital identifier as the III. Website: key to effective digital rights management; March 9 2000. Semantic web server http://www.semanticwebserver.com RDF http://www.w3.org/RDF [III.1] W3C SemanticWeb Activity http://www.w3.org/2001/sw
[III.2]
[III.3]
[III.4] Tim Berners – Lee Notation3 http://www.w3.org/DesignIssues/Notation3.html http://www.cimtech.co.uk http://www.adobe.com/security RDQL: RDF Data Query Language [III.5]
[III.6]
[III.7] http://www.htl.hp.com/semweb/rdql.html [III.8] RDF/XML Syntax Specification http://www.w3.org/TR/rdf-syntax- grammar/ DAML http://www.daml.org 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 122 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh [III.9]
[III.10] RDF Data http://www.rdfdata.org (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc [III.11] National Information Standards Organization http://www.niso.org
[III.12] Intellidimension: Delivering a Platform for the Semantic Web http://www.intellidimension.com/ eLib http://purl.org/metadata/dublin_core. 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 123 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh [III.13] (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc Cú pháp RDF: 1.
rdfs:Resource T#t c(cid:5) m(cid:12)i th(cid:27) (cid:7)(cid:10)(cid:26)c mô t(cid:5) b(cid:3)i RDF (cid:7)(cid:10)(cid:26)c g(cid:12)i là resources và là thành viên c$a class rdfs:Resource rdfs:Literal L(cid:20)p rdfs:Listeral (cid:7)(cid:11)i di(cid:9)n cho m(cid:23)t l(cid:20)p các giá tr(cid:19) ký t(cid:13) nh(cid:10) là strings và intergers. Ví d!: thu(cid:23)c tính giá tr(cid:19): chu(cid:15)i text rdfs:XMLLiteral L(cid:20)p rdfs:XMLLiteral (cid:7)(cid:11)i di(cid:9)n cho l(cid:20)p giá tr(cid:19) chu(cid:15)i c$a XML. rdfs:Class L(cid:20)p này t(cid:10)(cid:6)ng (cid:27)ng v(cid:20)i khái ni(cid:9)m chung type ho"c là catalog c$a tài nguyên. RDF class membership (quan h(cid:9) thành viên l(cid:20)p RDF) (cid:7)(cid:10)(cid:26)c s% d!ng (cid:7)(cid:28) (cid:7)(cid:11)i di(cid:9)n cho types và catalog c$a tài nguyên. Hai l(cid:20)p có th(cid:28) có cùng thành viên. rdf:Property rdf:Property (cid:7)(cid:11)i di(cid:9)n cho nh(cid:25)ng tài nguyên có thu(cid:23)c tính RDF. rdfs:Datatype rdfs:Datatype (cid:7)(cid:11)i di(cid:9)n cho nh(cid:25)ng tài nguyên có các ki(cid:28)u d(cid:25) li(cid:9)u RDF. rdf:type Thu(cid:23)c tính rdf:type cho bi(cid:8)t m(cid:23)t tài nguyên là thành viên c$a class nào. Khi m(cid:23)t tài nguyên có m(cid:23)t thu(cid:23)c tính rdf:type mà giá tr(cid:19) c$a thu(cid:23)c tính này là m(cid:23)t s(cid:17) class xác (cid:7)(cid:19)nh, thì chúng ta nói r0ng tài nguyên là m(cid:23)t instance of c$a class xác (cid:7)(cid:19)nh 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 124 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh này. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc Giá tr(cid:19) c$a thu(cid:23)c tính rdf:type s* luôn là m(cid:23)t tài nguyên – tài nguyên này là m(cid:23)t th(cid:28) hi(cid:9)n (instance) c$a rdfs:Class. Tài nguyên này (cid:7)(cid:10)(cid:26)c bi(cid:8)t nh(cid:10) là rdfs:Class b(cid:5)n thân nó là m(cid:23)t tài nguyên c$a m(cid:23)t rdf:type rdfs:Class. (B(cid:5)n thân nó c/ng là m(cid:23)t ki(cid:28)u – type c$a m(cid:23)t l(cid:20)p). rdfs:subClassOf Thu(cid:23)c tính rdfs:subClassOf (cid:7)(cid:11)i di(cid:9)n cho m(cid:17)i quan h(cid:9) chu5n hoá gi(cid:25)a các class c$a m(cid:23)t tài nguyên. Thu(cid:23)c tính rdfs:subClassOf là m(cid:23)t transitive. rdfs:subPropertyOf Thu(cid:23)c tính rdfs:subPropertyOf là m(cid:23)t th(cid:28) hi(cid:9)n (instance) c$a rdf:Property, (cid:7)(cid:10)(cid:26)c s% d!ng (cid:7)(cid:28) xác (cid:7)(cid:19)nh m(cid:23)t thu(cid:23)c tính là m(cid:23)t chu5n c$a m(cid:23)t cái khác. H(cid:9) th(cid:17)ng c#p b(cid:14)c thu(cid:23)c tính con có th(cid:28) (cid:7)(cid:10)(cid:26)c s% d!ng (cid:7)(cid:28) trình bày h(cid:9) th(cid:17)ng c#p b(cid:14)c c$a các ràng bu(cid:23)c v(cid:31) range và domain. Chú ý: Thu(cid:14)t ng(cid:25) “super – property” (cid:7)ôi khi (cid:7)(cid:10)(cid:26)c s% d!ng (cid:7)(cid:28) cho bi(cid:8)t m(cid:17)i quan h(cid:9) gi(cid:25)a m(cid:23)t s(cid:17) thu(cid:23)c tính v(cid:20)i nhi(cid:31)u thu(cid:23)c tính ph. bi(cid:8)n khác, ví d! là m(cid:17)i quan h(cid:9) rdfs:subPropertyOf. rdfs:range M(cid:23)t th(cid:28) hi(cid:9)n c$a rdf:Property (cid:7)(cid:10)(cid:26)c s% d!ng (cid:7)(cid:28) cho bi(cid:8)t các class nào mà giá tr(cid:19) c$a m(cid:23)t thu(cid:23)c tính s* là thành viên c$a nó. Giá tr(cid:19) c$a m(cid:23)t thu(cid:23)c tính rdfs:range luôn luôn là m(cid:23)t Class. Thu(cid:23)c tính rdfs:range b(cid:5)n thân nó có th(cid:28) (cid:7)(cid:10)(cid:26)c s% d!ng (cid:7)(cid:28) bi(cid:28)u di-n (cid:7)i(cid:31)u này: The rdfs:range of rdfs:range is the class rdfs:Class. (cid:1)i(cid:31)u này cho th#y r0ng b#t k3 m(cid:23)t tài nguyên nào là giá tr(cid:19) c$a thu(cid:23)c tính range s* là m(cid:23)t class. Thu(cid:23)c tính rdfs:range ch& (cid:7)(cid:10)(cid:26)c áp d!ng (cid:7)(cid:17)i v(cid:20)i các thu(cid:23)c tính. (cid:1)i(cid:31)u này c/ng (cid:7)(cid:10)(cid:26)c miêu t(cid:5) trong RDF thông qua vi(cid:9)c s% d!ng thu(cid:23)c tính rdfs:domain. The rdfs:Domain of rdfs:range is the class rdf:Property. (cid:1)i(cid:31)u này cho th#y r0ng thu(cid:23)c tính range áp d!ng (cid:7)(cid:17)i v(cid:20)i các tài nguyên mà b(cid:5)n thân nó c/ng là các thu(cid:23)c tính (property). rdfs:domain M(cid:23)t th(cid:28) hi(cid:9)n c$a rdf:Property (cid:7)(cid:10)(cid:26)c s% d!ng (cid:7)(cid:28) cho bi(cid:8)t class nào s* có thành viên là 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 125 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh b#t k3 m(cid:23)t tài nguyên nào sao cho thu(cid:23)c tính c$a nó (cid:7)(cid:10)(cid:26)c ch& (cid:7)(cid:19)nh. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc The rdfs:domain of rdfs:domain is the class rdf:Property. (cid:1)i(cid:31)u này cho th#y r0ng thu(cid:23)c tính domain (cid:7)(cid:10)(cid:26)c s% d!ng trên các tài nguyên là các thu(cid:23)c tính. The rdfs:range of rdfs:domain is the class rdfs:Class. (cid:1)i(cid:31)u này cho th#y r0ng b#t k3 m(cid:23)t tài nguyên nào mà là giá tr(cid:19) c$a m(cid:23)t thu(cid:23)c tính domain s* là m(cid:23)t class. rdfs:label Thu(cid:23)c tính rdfs:label (cid:7)(cid:10)(cid:26)c s% d!ng (cid:7)(cid:28) cung c#p phiên b(cid:5)n tên c$a tài nguyên mà con ng(cid:10)(cid:4)i có th(cid:28) (cid:7)(cid:12)c (cid:7)(cid:10)(cid:26)c. rdfs:comment Thu(cid:23)c tính rdfs:comment (cid:7)(cid:10)(cid:26)c s% d!ng (cid:7)(cid:28) cung c#p s(cid:13) mô t(cid:5) tài nguyên mà con ng(cid:10)(cid:4)i có th(cid:28) (cid:7)(cid:12)c (cid:7)(cid:10)(cid:26)c. M(cid:23)t dòng chú thích b0ng text (textual comment) giúp làm rõ ng(cid:25) ngh a c$a các class và các property c$a RDF. Các l(cid:20)p và các thu(cid:25)c tính RDF Utility và Container RDF (cid:7)(cid:19)nh ngh a thêm m(cid:23)t s(cid:17) class và property, bao g1m xây d(cid:13)ng cách bi(cid:28)u di-n các container và các phát bi(cid:28)u RDF, và cách m(cid:3) r(cid:23)ng mô t(cid:5) t(cid:30) v(cid:13)ng RDF trên world wide web. Các l(cid:20)p và các thu(cid:25)c tính RDF Container rdfs:Container L(cid:20)p rdfs:Container là m(cid:23)t super – class c$a các l(cid:20)p Container c$a RDF, ví d!: rdf:Bag, rdf:Seq, rdf:Alt. rdf:Bag L(cid:20)p rdf:Bag (cid:7)(cid:11)i di(cid:9)n cho c#u trúc container ‘Bag’ c$a RDF, và là m(cid:23)t l(cid:20)p con c$a l(cid:20)p 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 126 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh rdfs:Container. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc rdf:Seq L(cid:20)p rdf:Seq (cid:7)(cid:11)i di(cid:9)n cho c#u trúc container ‘Sequence’ c$a RDF, và là m(cid:23)t l(cid:20)p con c$a l(cid:20)p rdfs:Container. rdf:Alt L(cid:20)p rdf:Alt (cid:7)(cid:11)i di(cid:9)n cho c#u trúc container ‘Alt’ c$a RDF, và là l(cid:20)p con c$a l(cid:20)p rdfs:Container. rdfs:ContainerMembershipProperty L(cid:20)p rdfs:ContainerMembershipProperty v(cid:20)i t(cid:10) cách là thành viên c$a thu(cid:23)c tính rdfs:member và các thu(cid:23)c tính _1, _2, _3, … có th(cid:28) (cid:7)(cid:10)(cid:26)c s% d!ng (cid:7)(cid:28) cho bi(cid:8)t quan h(cid:9) thành viên c$a các container Baq, Seq, và Alt. rdfs:ContainerMembershipProperty là m(cid:23)t l(cid:20)p con (subclass) c$a rdf:Property. M(cid:15)i thu(cid:23)c tính trong quan h(cid:9) thành viên c$a container là m(cid:23)t rdfs:subPropertyOf c$a thu(cid:23)c tính rdfs:member. rdfs:member Thu(cid:23)c tính rdfs:member là m(cid:23)t siêu thu(cid:23)c tính (super – property) c$a các thu(cid:23)c tính trong quan h(cid:9) thành viên c$a container. rdf:List L(cid:20)p rdf:List (cid:7)(cid:11)i di(cid:9)n cho l(cid:20)p các danh sách li(cid:9)t kê (Lists) c$a RDF. Nó (cid:7)(cid:10)(cid:26)c s% d!ng v(cid:20)i các construct nh(cid:10) ‘first’, ‘rest’, và ‘nil’, và nó (cid:7)(cid:10)(cid:26)c h(cid:15) tr(cid:26) trong cú pháp RDF/XML. rdf:first Thu(cid:23)c tính rdf:first (cid:7)(cid:11)i di(cid:9)n cho m(cid:17)i quan h(cid:9) gi(cid:25)a rdf:List và ph(cid:2)n t% (item) (cid:7)(cid:2)u tiên c$a nó. 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 127 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh rdf:rest (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc Thu(cid:23)c tính rdf:rest (cid:7)(cid:11)i di(cid:9)n cho m(cid:17)i quan h(cid:9) gi(cid:25)a ph(cid:2)n t% (item) rdf:List v(cid:20)i các ph(cid:2)n t% còn l(cid:11)i trong danh sách (list), ho"c v(cid:20)i ph(cid:2)n t% cu(cid:17)i c$a nó (ví d!, rdf:nil). rdf:nil Tài nguyên rdf:nil (cid:7)(cid:11)i di(cid:9)n cho m(cid:23)t rdf:List r(cid:15)ng (empty). Các l(cid:20)p và các thu(cid:25)c tính RDF Utility rdfs:seeAlso Thu(cid:23)c tính rdfs:seeAlso (cid:7)(cid:10)(cid:26)c s% d!ng (cid:7)(cid:28) cho bi(cid:8)t m(cid:23)t tài nguyên có th(cid:28) cung c#p thông tin RDF thêm vào v(cid:31) tài nguyên ch$ (cid:7)(cid:31) (subject resource). rdfs:isDefinedBy Thu(cid:23)c tính rdfs:isDefinedBy là m(cid:23)t thu(cid:23)c tính con c$a rdfs:seeAlso, và cho bi(cid:8)t tài nguyên nào (cid:7)ang (cid:7)(cid:19)nh ngh a tài nguyên ch$ (cid:7)(cid:31). rdf:value Thu(cid:23)c tính rdf:value nh(cid:14)n bi(cid:8)t giá tr(cid:19) ch$ y(cid:8)u (th(cid:10)(cid:4)ng là chu(cid:15)i) c$a m(cid:23)t thu(cid:23)c tính khi giá tr(cid:19) thu(cid:23)c tính là m(cid:23)t tài nguyên có c#u trúc (structured resource). rdf:Statement L(cid:20)p rdf:Statement (cid:7)(cid:11)i di(cid:9)n cho các phát bi(cid:28)u v(cid:31) các thu(cid:23)c tính c$a các tài nguyên. rdf:Statement là domain (l nh v(cid:13)c) c$a các thu(cid:23)c tính: rdf:predicate, rdf:subject và rdf:object. Các th(cid:28) hi(cid:9)n (instance) rdf:Statement (cid:7)(cid:23)c l(cid:14)p khác có th(cid:28) có cùng giá tr(cid:19) cho các thu(cid:23)c tính predicate, subject và object c$a chúng. rdf:subject Ch$ (cid:7)(cid:31) c$a m(cid:23)t phát bi(cid:28)u (statement) RDF. 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 128 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh Thu(cid:23)c tính rdf:subject cho bi(cid:8)t m(cid:23)t tài nguyên là ch$ (cid:7)(cid:31) c$a m(cid:23)t s(cid:17) phát bi(cid:28)u RDF. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc The rdfs:domain of rdf:subject is rdf:Statement and the rdfs:range is rdfs:Resource. Thu(cid:23)c tính này có th(cid:28) (cid:7)(cid:10)(cid:26)c s% d!ng (cid:7)(cid:28) xác (cid:7)(cid:19)nh tài nguyên nào (cid:7)(cid:10)(cid:26)c mô t(cid:5) b(cid:3)i m(cid:23)t phát bi(cid:28)u RDF. rdf:predicate V(cid:19) ng(cid:25) (predicate) c$a m(cid:23)t phát bi(cid:28)u RDF. The rdfs:domain of rdf:predicate is rdf:Statement and the rdfs:range is rdfs:Resource. Thu(cid:23)c tính này (cid:7)(cid:10)(cid:26)c s% d!ng (cid:7)(cid:28) xác (cid:7)(cid:19)nh v(cid:19) ng(cid:25) nào (cid:7)(cid:10)(cid:26)c s% d!ng trong m(cid:23)t phát bi(cid:28)u RDF. rdf:object Túc t(cid:30) (tân ng(cid:25)) c$a m(cid:23)t phát bi(cid:28)u RDF. The rdfs:domain of rdf:object is rdf:Statement. Thu(cid:23)c tính range không (cid:7)(cid:10)(cid:26)c (cid:7)(cid:19)nh ngh a cho thu(cid:23)c tính này b(cid:3)i vì các giá tr(cid:19) c$a rdf:object có th(cid:28) bao g1m c(cid:5) Literals và Resources. Thu(cid:23)c tính này có th(cid:28) (cid:7)(cid:10)(cid:26)c s% d!ng (cid:7)(cid:28) xác (cid:7)(cid:19)nh túc t(cid:30) c$a m(cid:23)t phát RDF Gateway: 2. bi(cid:28)u RDF. Công ty Intellidimension, n0m t(cid:11)i Windsor, Vermont (USA) (cid:7)ã t(cid:11)o ra m(cid:23)t n(cid:31)n RDF th(cid:10)(cid:6)ng m(cid:11)i (cid:7)(cid:10)(cid:26)c g(cid:12)i là RDF Gateway. (cid:1)i(cid:28)m m(cid:11)nh c$a công c! này là tính d- s% d!ng và mang chuy(cid:28)n. RDF Gateway ch& gi(cid:20)i h(cid:11)n trên n(cid:31)n Microsoft Windows, hi(cid:9)n nay v(cid:21)n ch(cid:10)a có m(cid:23)t k(cid:8) ho(cid:11)ch nào cho s(cid:13) ra (cid:7)(cid:4)i c$a m(cid:23)t phiên b(cid:5)n cho Linux hay m(cid:23)t h(cid:9) (cid:7)i(cid:31)u hành khác. S(cid:5)n ph(cid:5)m RDF Gateway ra (cid:7)(cid:4)i cùng lúc v(cid:20)i s(cid:13) ra (cid:7)(cid:4)i c$a công ty Intellidimension vào tháng 6 n(cid:18)m 2000. Phiên b(cid:5)n ki(cid:28)m nghi(cid:9)m beta c$a nó (cid:7)(cid:10)(cid:26)c ra m(cid:16)t vào n(cid:18)m 2001. Nh(cid:25)ng nhà l(cid:14)p trình (cid:7)ã (cid:7)(cid:31) xu#t và th(cid:5)o lu(cid:14)n các tính n(cid:18)ng c$a h(cid:9) th(cid:17)ng trong di-n (cid:7)àn th(cid:5)o lu(cid:14)n chung c$a W3C. Cu(cid:17)i cùng thì phiên b(cid:5)n th(cid:10)(cid:6)ng m(cid:11)i 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 129 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh 1.0 ra (cid:7)(cid:4)i vào ngày 3 tháng 3 n(cid:18)m 2003. (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc B(cid:3)i vì (cid:7)ây là m(cid:23)t ph(cid:2)n m(cid:31)m th(cid:10)(cid:6)ng m(cid:11)i, nên nó c/ng c(cid:2)n có b(cid:5)n quy(cid:31)n. Tuy nhiên v(cid:21)n là mi-n phí (cid:7)(cid:17)i v(cid:20)i các m!c (cid:7)ích h(cid:12)c t(cid:14)p phát tri(cid:28)n. 2.1. Ki(cid:28)n trúc c a RDF Gateway: RDF Gateway là m(cid:23)t server nh(cid:24) và nhanh, nó có th(cid:28) liên k(cid:8)t các tính n(cid:18)ng c$a m(cid:23)t h(cid:9) qu(cid:5)n tr(cid:19) c(cid:6) s(cid:3) d(cid:25) li(cid:9)u và web server. Nó (cid:7)(cid:10)(cid:26)c thi(cid:8)t k(cid:8) nh(cid:10) là m(cid:23)t khung n(cid:31)n cho vi(cid:9)c t(cid:14)p h(cid:26)p, truy v#n, chuy(cid:28)n (cid:7).i và phân ph(cid:17)i d(cid:25) li(cid:9)u RDF. Hình 24: Ki(cid:28)n trúc c a RDF Gateway o B(cid:25) x(cid:23) lý b(cid:19)n mã RDFQL (RDFQL Script Processor) RDFQL Script Processor là m(cid:23)t máy (cid:5)o (cid:10)u tiên (preemptive virtual machine) có th(cid:28) biên d(cid:19)ch, l(cid:10)u tr(cid:25), và th(cid:13)c thi các (cid:7)o(cid:11)n script RDFQL. RDFQL là m(cid:23)t ngôn ng(cid:25) scripting phía server d(cid:13)a trên ECMA Script (Java Script). RDFQL tích h(cid:26)p các m(cid:3) r(cid:23)ng truy v#n t(cid:13)a SQL (cid:7)(cid:28) d- dàng truy c(cid:14)p (cid:7)(cid:8)n b(cid:23) máy c(cid:6) s(cid:3) d(cid:25) li(cid:9)u suy di-n 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 130 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh c$a RDF Gateway. RDFQL script processor cho phép các trang (pages) – có s(cid:13) k(cid:8)t (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc h(cid:26)p c$a script và n(cid:23)i dung t nh t(cid:10)(cid:6)ng t(cid:13) nh(cid:10) Microsoft Active Server Pages (ASP). Server (cid:7)(cid:10)(cid:26)c (cid:7)(cid:10)(cid:26)c k(cid:8)t n(cid:17)i (cid:7)(cid:8)n RDFQL thông qua m(cid:23)t th(cid:10) vi(cid:9)n c$a các (cid:7)(cid:17)i t(cid:10)(cid:26)ng bên trong (Server, Session, Request, Response, …). o Database Engine RDF Gateway có m(cid:23)t b(cid:23) máy c(cid:6) s(cid:3) d(cid:25) li(cid:9)u suy di-n – (cid:7)(cid:10)(cid:26)c thi(cid:8)t k(cid:8) t(cid:30) n(cid:31)n không h(cid:15) tr(cid:26) ho"c có h(cid:15) tr(cid:26) RDF. Nó th(cid:13)c hi(cid:9)n (cid:7)ánh giá truy v#n theo chi(cid:8)n l(cid:10)(cid:26)c bottom – up, (cid:7)(cid:10)(cid:26)c t. ch(cid:27)c liên (cid:7)o(cid:11)n theo t#t c(cid:5) các tài nguyên d(cid:25) li(cid:9)u xác (cid:7)(cid:19)nh. Kh(cid:5) n(cid:18)ng suy lu(cid:14)n logic c$a b(cid:23) máy cung c#p s(cid:13) h(cid:15) tr(cid:26) cho cú pháp các lu(cid:14)t khai báo c$a RDFQL. B(cid:23) máy c(cid:6) s(cid:3) d(cid:25) li(cid:9)u không truy c(cid:14)p (cid:7)(cid:8)n m(cid:23)t h(cid:9) th(cid:17)ng qu(cid:5)n lý d(cid:25) li(cid:9)u bên ngoài. o Data Service Interface: (Giao di&n d-ch v(cid:24) d% li&u) Giao di(cid:9)n d(cid:19)ch v! d(cid:25) li(cid:9)u cho phép các tài nguyên d(cid:25) li(cid:9)u t(cid:30) bên ngoài (cid:7)(cid:10)(cid:26)c tích h(cid:26)p v(cid:20)i RDF Gateway. M(cid:23)t nhà cung c#p d(cid:19)ch v! d(cid:25) li(cid:9)u là m(cid:23)t mô – (cid:7)un th(cid:13)c thi giao di(cid:9)n này và bi(cid:28)u di-n các n(cid:23)i dung c$a m(cid:23)t ki(cid:28)u xác (cid:7)(cid:19)nh c$a tài nguyên d(cid:25) li(cid:9)u nh(cid:10) là d(cid:25) li(cid:9)u RDF. RDFQL cho phép t. ch(cid:27)c liên (cid:7)o(cid:11)n các câu v#n tin (cid:7)(cid:10)(cid:26)c thi hành thông qua nhi(cid:31)u d(cid:19)ch v! d(cid:25) li(cid:9)u. Giao di(cid:9)n m(cid:3) này làm cho nó có th(cid:28) s% d!ng b#t k3 m(cid:23)t nhà cung c#p d(cid:19)ch v! d(cid:25) li(cid:9)u s6n có hi(cid:9)n t(cid:11)i nào ho"c phát tri(cid:28)n m(cid:23)t nhà cung c#p theo ý mình cho m(cid:23)t ngu1n d(cid:25) li(cid:9)u. o Authentication/Security: RDF Gateway có m(cid:23)t mô hình b(cid:5)o m(cid:14)t d(cid:13)a trên quy(cid:31)n và s(cid:13) cho phép (cid:7)i(cid:31)u khi(cid:28)n truy xu#t (cid:7)(cid:8)n server và các tài nguyên c(cid:6) s(cid:3) d(cid:25) li(cid:9)u. RDF Gateway h(cid:15) tr(cid:26) cho nh(cid:25)ng user c$a nó và các role c/ng nh(cid:10) user và group c$a NT. M(cid:23)t NT user luôn (cid:7)(cid:10)(cid:26) ch(cid:27)ng th(cid:13)c b0ng cách s% d!ng m(cid:23)t s(cid:13) u4 nhi(cid:9)m c$a NT cho tài kho(cid:5)n. S(cid:13) h(cid:15) tr(cid:26) c$a RDF Gateway cho (cid:7)(cid:17)i v(cid:20)i các user và group c$a NT làm cho có th(cid:28) qu(cid:5)n tr(cid:19) b(cid:5)o m(cid:14)t t(cid:30) bên ngoài. o Network IO Giao di(cid:9)n m(cid:11)ng h(cid:15) tr(cid:26) c(cid:5) HTTP và TCP/IP d(cid:13)a trên giao th(cid:27)c. T(cid:2)ng 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 131 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh nh(cid:14)p xu#t m(cid:11)ng (network IO layer) h(cid:15) tr(cid:26) l(cid:10)(cid:26)c (cid:7)1 ch(cid:27)ng th(cid:13)c m(cid:11)ng b(cid:5)o m(cid:14)t nh(cid:10) là (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc NT Challenge/ Response (NTLM). M(cid:23)t client k(cid:8)t n(cid:17)i (cid:7)(cid:8)n server thông qua m(cid:23)t interface (giao di(cid:9)n). o Package Management RDF Gateway cho phép th(cid:13)c thi các (cid:27)ng d!ng (cid:7)(cid:28) (cid:7)(cid:10)(cid:26)c phát tri(cid:28)n và tri(cid:28)n khai nh(cid:10) là các package. M(cid:23)t package bao g1m các trang server RDF, các trang HTML, các hình (cid:5)nh ho"c b#t k3 m(cid:23)t ki(cid:28)u file nào khác. o Component Management RDFQL h(cid:15) tr(cid:26) COM trong script phía server c$a nó. (cid:1)i(cid:31)u này cho phép tính n(cid:18)ng c$a RDF Gateway có th(cid:28) (cid:7)(cid:10)(cid:26)c m(cid:3) r(cid:23)ng ho"c (cid:7)(cid:17)i v(cid:20)i các (cid:27)ng d!ng (cid:7)(cid:10)(cid:26)c tích h(cid:26)p v(cid:20)i RDF Gateway. o Session Management B(cid:23) qu(cid:5)n lý phiên làm vi(cid:9)c cho phép l(cid:10)u l(cid:11)i tr(cid:11)ng thái c$a ng(cid:10)(cid:4)i dùng trên server. 2.2. Tính n8ng (Features) o Bi6u di;n các b(cid:25) ba RDF vào trong các b(cid:19)ng d% li&u: H(cid:9) bi(cid:8)n hoá RDBMS ( RDBMS paradigm) c$a vi(cid:9)c l(cid:10)u tr(cid:25) d(cid:25) li(cid:9)u trong các b(cid:5)ng (cid:7)(cid:10)(cid:26)c l(cid:16)p vào (cid:7)(cid:28) l(cid:10)u tr(cid:25) các b(cid:23) ba RDF (triples). Mô hình d(cid:25) li(cid:9)u c$a các b(cid:5)ng là m(cid:23)t b(cid:23) ba bao g1m: predicate, subject, và object. Các c(cid:23)t c$a b(cid:5)ng không có tên nh(cid:10)ng luôn ch(cid:27)a 3 thành ph(cid:2)n c$a b(cid:23) ba này theo th(cid:27) t(cid:13). L(cid:10)u ý là predicate là thành ph(cid:2)n (cid:7)(cid:2)u tiên. Có m(cid:23)t c(cid:23)t tu3 ch(cid:12)n th(cid:27) t(cid:10) cho l(cid:10)u tr(cid:25) siêu d(cid:25) li(cid:9)u v(cid:31) triple (b(cid:23) ba), siêu d(cid:25) li(cid:9)u này (cid:7)(cid:10)(cid:26)c g(cid:12)i là “context” c$a b(cid:23) ba. Tr(cid:10)(cid:4)ng context có th(cid:28) l(cid:10)u tr(cid:25) m(cid:23)t (cid:7)(cid:19)nh danh tài nguyên mà (cid:7)(cid:19)nh danh này có th(cid:28) (cid:7)(cid:10)(cid:26)c s% d!ng (cid:7)(cid:28) gi(cid:5)i quy(cid:8)t các v#n (cid:7)(cid:31) b(cid:5)o m(cid:14)t ho"c nh(cid:14)n di(cid:9)n tài nguyên c$a b(cid:23) ba ho"c b#t k3 m(cid:23)t tính n(cid:18)ng quen thu(cid:23)c nào. o Other data sources: (Các ngu.n d% li&u khác) Các ngu1n d(cid:25) li(cid:9)u bên ngoài và các c(cid:6) s(cid:3) d(cid:25) li(cid:9)u (cid:7)ang ho(cid:11)t (cid:7)(cid:23)ng (cid:7)(cid:10)(cid:26)c 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 132 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh truy xu#t t(cid:30) server (cid:7)(cid:10)(cid:26)c bao quanh các (cid:7)(cid:17)i t(cid:10)(cid:26)ng c$a ngu1n d(cid:25) li(cid:9)u. M(cid:23)t (cid:7)(cid:17)i t(cid:10)(cid:26)ng (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc ngu1n d(cid:25) li(cid:9)u (datasource object) có c#u trúc gi(cid:17)ng nh(cid:10) m(cid:23)t table, ch(cid:27)a (cid:7)(cid:13)ng các b(cid:23) ba trong các dòng. Có s(cid:13) h(cid:15) tr(cid:26) cho các b(cid:5)ng trong b(cid:23) nh(cid:20) và nó có th(cid:28) t(cid:11)o các trình bao b(cid:12)c cho d(cid:25) li(cid:9)u bên ngoài. o Databases Vi(cid:9)c l(cid:10)u tr(cid:25) các b(cid:5)ng (cid:7)(cid:10)(cid:26)c phân thành các ph(cid:2)n trong c(cid:6) s(cid:3) d(cid:25) li(cid:9)u. M(cid:23)t server có th(cid:28) ch(cid:27)a nhi(cid:31)u c(cid:6) s(cid:3) d(cid:25) li(cid:9)u khác nhau, m(cid:23)t b(cid:5)ng có th(cid:28) (cid:7)(cid:10)(cid:26)c t(cid:11)o trong m(cid:23)t c(cid:6) s(cid:3) d(cid:25) li(cid:9)u. Format c$a c(cid:6) s(cid:3) d(cid:25) li(cid:9)u là m(cid:23)t (cid:7)(cid:19)nh d(cid:11)ng file s(cid:3) h(cid:25)u, m(cid:15)i c(cid:6) s(cid:3) d(cid:25) li(cid:9)u (cid:7)(cid:10)(cid:26)c l(cid:10)u trong m(cid:23)t file.
o RDFQL script language: Ngôn ng(cid:25) scripting d(cid:13)a trên ECMA script, th(cid:10)(cid:4)ng (cid:7)(cid:10)(cid:26)c bi(cid:8)t (cid:7)(cid:8)n nh(cid:10) là Javascript. Các khái ni(cid:9)m sau (cid:7)(cid:10)(cid:26)c cung c#p: (cid:2) Functions (các hàm)
(cid:2) Variables và Arrays ( các bi(cid:8)n và các m(cid:5)ng)
(cid:2) Câu l(cid:9)nh loops và If
(cid:2) Exception handling (b(cid:16)t l(cid:15)i)
(cid:2) Import các file script khác.
(cid:2) Comments (các chú thích)
(cid:2) Các câu l(cid:9)nh (phát bi(cid:28)u) trong RDF Gateway. Các câu l(cid:9)nh cho RDF Gateway bao g1m m(cid:15)i khía c(cid:11)nh c$a server và giúp ng(cid:10)(cid:4)i l(cid:14)p trình truy c(cid:14)p (cid:7)(cid:8)n t#t c(cid:5) các tính n(cid:18)ng c$a nó. M(cid:23)t ví d! là công c! c#u hình server, công c! này là m(cid:23)t trang web (cid:7)(cid:10)(cid:26)c vi(cid:8)t b0ng RDFQL (cid:7)(cid:10)(cid:26)c thông d(cid:19)ch b(cid:3)i m(cid:23)t web server (cid:7)(cid:10)(cid:26)c tích h(cid:26)p, và cho phép truy xu#t (cid:7)(cid:8)n t#t c(cid:5) các (cid:7)(cid:17)i t(cid:10)(cid:26)ng c$a server nh(cid:10) là: các table, các database, user và package. (cid:1)(cid:28) tìm ra (cid:7)(cid:10)(cid:26)c các dataset c$a b(cid:23) ba RDF, m(cid:23)t (cid:7)(cid:17)i t(cid:10)(cid:26)ng RDF node (cid:7)(cid:10)(cid:26)c cung c#p, nó thu th(cid:14)p t#t c(cid:5) các predicate và subject c$a m(cid:23)t (cid:7)(cid:17)i t(cid:10)(cid:26)ng (cid:7)ã cho và làm cho nó có th(cid:28) thay (cid:7).i giá tr(cid:19) c$a các subject. (cid:1)(cid:28) ch(cid:11)y các câu truy v#n trên server, m(cid:23)t t(cid:14)p các câu l(cid:9)nh c(cid:6) s(cid:3) d(cid:25) li(cid:9)u 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 133 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh c(cid:2)n ph(cid:5)i s6n sàng. Các câu l(cid:9)nh c(cid:6) s(cid:3) d(cid:25) li(cid:9)u (cid:7)óng gói trong RDFQL script, câu l(cid:9)nh (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc này th(cid:10)(cid:4)ng (cid:7)(cid:10)(cid:26)c bi(cid:8)t t(cid:30) các câu l(cid:9)nh SQL trong các file source C (cid:7)(cid:10)(cid:26)c tích h(cid:26)p b(cid:3)i m(cid:23)t trình biên d(cid:19)ch tr(cid:10)(cid:20)c. Truy c(cid:14)p (cid:7)(cid:8)n các (cid:7)(cid:17)i t(cid:10)(cid:26)ng ActiveX và COM (cid:7)(cid:10)(cid:26)c h(cid:15) tr(cid:26) thông qua ph(cid:10)(cid:6)ng th(cid:27)c kh(cid:3)i gán (construct) c$a ngôn ng(cid:25) ActiveXObject. N(cid:8)u (cid:7)o(cid:11)n script RDFQL (cid:7)(cid:10)(cid:26)c (cid:7)ánh giá trong ng(cid:25) c(cid:5)nh c$a web server, thì các (cid:7)(cid:17)i t(cid:10)(cid:26)ng ch(cid:27)a d(cid:25) li(cid:9)u session, request và response (cid:7)(cid:10)(cid:26)c cung c#p. o Adding and retrieving data (thêm và truy v(n d% li&u) Các l(cid:9)nh thao tác d(cid:25) li(cid:9)u thì t(cid:10)(cid:6)ng t(cid:13) v(cid:20)i cú pháp l(cid:9)nh trong SQL. Tính n(cid:18)ng (cid:7)(cid:10)(cid:26)c m(cid:3) r(cid:23)ng (cid:7)(cid:17)i v(cid:20)i các nhu c(cid:2)u xác (cid:7)(cid:19)nh c$a RDF. Có các câu l(cid:9)nh nh(cid:10): INSERT, SELECT và DELETE. Các câu l(cid:9)nh này s% d!ng các bi(cid:8)n (variable) (cid:7)(cid:28) ràng bu(cid:23)c d(cid:25) li(cid:9)u, t(cid:10)(cid:6)ng t(cid:13) nh(cid:10) ngôn ng(cid:25) RQL (cid:7)(cid:10)(cid:26)c s% d!ng b(cid:3)i RDFSuite. INSERT { [http://www.artchive.com/] [http://www.icom.com/schema.rdf#technique] [http://www.artchive.com/rembrandt/abraham.jpg] 'Oil on canvas' } INTO museum; Ví d! này ch& ra cách nào (cid:7)(cid:28) insert m(cid:23)t b(cid:23) ba (triple) vào table “museum”. B(cid:23) ba (cid:7)(cid:10)(cid:26)c vi(cid:8)t gi(cid:25)a 2 d#u ngo"c nh(cid:12)n (‘{‘ và ‘}’) và ch(cid:27)a 4 giá tr(cid:19): (cid:2) Context
(cid:2) Predicate
(cid:2) Subject
(cid:2) Object ho"c Literal Thông tin ng(cid:25) ngh a c$a b(cid:23) ba này có ngh a là: b(cid:27)c (cid:5)nh “abraham.jpg” thu(cid:23)c v(cid:31) l nh v(cid:13)c “Oil on Canvas” và thông tin này (cid:7)(cid:10)(cid:26)c l#y t(cid:30) “www.artchive.com”. SELECT ?a, ?b, ?c USING museum 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 134 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh WHERE {?a ?b ?c} AND ?c LIKE “Oil”; (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc (cid:1)(cid:28) truy v#n các triple t(cid:30) m(cid:23)t table, thì câu l(cid:9)nh SELECT (cid:7)(cid:10)(cid:26)c s% d!ng. Ví d! này truy xu#t t#t c(cid:5) các triple mà có ch(cid:27)a t(cid:30) “oil” trong giá tr(cid:19) (cid:7)(cid:17)i t(cid:10)(cid:26)ng literal. Chú ý là triple (cid:3) gi(cid:25)a 2 d#u ngo"c nh(cid:12)n ch& ch(cid:27)a 3 giá tr(cid:19), context (cid:7)(cid:10)(cid:26)c b2 (cid:7)i. D(cid:25) li(cid:9)u có th(cid:28) (cid:7)(cid:10)(cid:26)c l#y t(cid:30) các ngu1n d(cid:25) li(cid:9)u bên ngoài ho"c chuy(cid:28)n (cid:7).i (tranfer) t(cid:30) m(cid:23)t b(cid:5)ng này (cid:7)(cid:8)n m(cid:23)t b(cid:5)ng khác. var doc = new DataSource( "inet?url=file://c:/Museum.xml&parsetype=rdf"); SELECT ?a, ?b, ?c USING #doc WHERE {?a ?b ?c}; INSERT {?p ?s ?o} INTO museum USING #doc
WHERE {?p ?s ?o}; Trong ví d! này, m(cid:23)t d(cid:25) li(cid:9)u RDF (cid:7)(cid:10)(cid:26)c l#y t(cid:30) m(cid:23)t file text và (cid:7)(cid:10)(cid:26)c insert vào b(cid:5)ng museum. L(cid:10)u ý là trong RDFQL Javascript, code (cid:7)(cid:10)(cid:26)c tr(cid:23)n v(cid:20)i m(cid:23)t (cid:7)o(cid:11)n code gi(cid:17)ng nh(cid:10) SQL – bi(cid:8)n javascript “doc” (cid:7)(cid:10)(cid:26)c s% d!ng trong l(cid:9)nh c(cid:6) s(cid:3) d(cid:25) li(cid:9)u nh(cid:10) là “#doc”. o Built – in Webserver (Webserver g RDF Gateway có m(cid:23)t Webserver g(cid:16)n li(cid:31)n.Giao di(cid:9)n c#u hình và qu(cid:5)nlý (cid:7)(cid:10)(cid:26)c xu#t b(cid:5)n d(cid:10)(cid:20)i d(cid:11)ng web. Các nhà phát tri(cid:28)n (cid:27)ng d!ng có th(cid:28) t(cid:11)o các trang web v(cid:20)i web server này, b0ng cách s% d!ng ngôn ng(cid:25) RDFQL script. Tính n(cid:18)ng này có th(cid:28) (cid:7)(cid:10)(cid:26)c s% d!ng trong vi(cid:9)c debug và phát tri(cid:28)n, nh(cid:10)ng c/ng có th(cid:28) s% d!ng (cid:7)(cid:28) xây d(cid:13)ng toàn b(cid:23) các (cid:27)ng d!ng web b0ng cách s% d!ng RDF Gateway. (cid:1)(cid:17)i v(cid:20)i v#n (cid:7)(cid:31) s% d!ng các (cid:7)(cid:17)i t(cid:10)(cid:26)ng ActiveX thông qua RDFQL, web server (cid:7)(cid:10)(cid:26)c xem là r#t m(cid:11)nh. o RDF Query Analyzer Các câu l(cid:9)nh và các câu truy v#n RDFQL có th(cid:28) (cid:7)(cid:10)(cid:26)c t(cid:11)o ra b0ng cách 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 135 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh s% d!ng (cid:27)ng d!ng (cid:5)o này (RQF Query Analyzer). (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc Hình 25: Giao di&n c a RQF Query Analyzer. Query analyzer thì t(cid:10)(cid:6)ng t(cid:13) nh(cid:10) các s(cid:5)n ph5m l(cid:10)(cid:26)ng gía truy v#n c$a các SQL Server ph. bi(cid:8)n. Các script ph(cid:27)c t(cid:11)p có th(cid:28) (cid:7)(cid:10)(cid:26)c t(cid:11)o ra (cid:3) (cid:7)ây và (cid:7)(cid:10)(cid:26)c s% d!ng trong các trang web ho"c các (cid:27)ng d!ng khác. Các câu truy v#n có th(cid:28) (cid:7)(cid:10)(cid:26)c (cid:7)ánh giá l(cid:11)i m(cid:23)t l(cid:2)n n(cid:25)a (cid:3) RDF Gateway c!c b(cid:23) ho"c (cid:3) xa, trình so(cid:11)n th(cid:5)o v(cid:18)n v(cid:5)n (text editor) có cú pháp (cid:3) d(cid:11)ng (cid:7)(cid:10)(cid:26)c highlight và có th(cid:28) l(cid:10)u và m(cid:3) các câu v#n tin. o Inference Engine (máy suy di;n) B(cid:23) máy c(cid:6) s(cid:3) d(cid:25) li(cid:9)u RDF Gateway g1m m(cid:23)t máy suy di-n. Các câu l(cid:9)nh b(cid:23) ba RDF m(cid:20)i, có th(cid:28) (cid:7)(cid:10)(cid:26)c phát sinh m(cid:23)t cách t(cid:13) (cid:7)(cid:23)ng d(cid:13)a trên các lu(cid:14)t suy di-n và các b(cid:23) ba (cid:7)ã có s6n. Các hàm (function) có th(cid:28) (cid:7)(cid:10)(cid:26)c (cid:7)(cid:19)nh ngh a, các hàm này rút trích d(cid:25) li(cid:9)u t(cid:30) c(cid:6) s(cid:3) d(cid:25) li(cid:9)u d(cid:13)a trên các lu(cid:14)t. Các lu(cid:14)t này (cid:7)(cid:10)(cid:26)c (cid:7)(cid:19)nh ngh a trong ngôn ng(cid:25) RDFQL script và có th(cid:28) (cid:7)(cid:10)(cid:26)c s% d!ng trong các dòng l(cid:9)nh thao tác c(cid:6) s(cid:3) d(cid:25) li(cid:9)u. RULEBASE schema { INFER {[rdf:type] ?s ?class} FROM 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 136 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh {[rdf:type] ?s ?subclass} AND (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc {[rdfs:subClassOf] ?subclass ?class}; }; SELECT ?p ?s ?o USING #ds RULEBASE schema WHERE {[rdf:type] ?s ?o} AND {?p ?s ?o}; Ví d! này (cid:7)(cid:19)nh ngh a m(cid:23)t lu(cid:14)t (rule) cho l(cid:10)(cid:26)c (cid:7)1 RDF (RDF Schema) v(cid:31) các subclass (l(cid:20)p con): N(cid:8)u môt subject là m(cid:23)t ki(cid:28)u (type) c$a X và X (cid:7)(cid:10)(cid:26)c (cid:7)(cid:19)nh ngh a là subject c$a Y, thì subject c/ng là m(cid:23)t ki(cid:28)u c$a Y. R1i sau (cid:7)ó lu(cid:14)t này (cid:7)(cid:10)(cid:26)c s% d!ng cho câu l(cid:9)nh SELECT (cid:7)(cid:28) truy v#n t#t c(cid:5) các class và các class xu#t phát c$a t#t c(cid:5) các subject. V(cid:17)n RDF Schema không (cid:7)(cid:10)(cid:26)c h(cid:15) tr(cid:26) b(cid:3)i RDF Gateway, nó ph(cid:5)i (cid:7)(cid:10)(cid:26)c mô t(cid:5) theo các lu(cid:14)t suy di-n. o Client Libraries RDF Gateway có các th, cài client (client drivers) cho Microsoft ADO và Sun Microsystems JDBC. (cid:1)i(cid:31)u này cho phép RDF Gateway h(cid:15) tr(cid:26) r(cid:23)ng kh(cid:16)p nhi(cid:31)u client nh(cid:10) là các web browser, các (cid:27)ng d!ng Windows, các (cid:27)ng d!ng Java, XML ho"c RDF d(cid:13)a trên clients. o Security Khi truy c(cid:14)p vào RDF Gateway thông qua http, ADO ho"c các protocols khác, ng(cid:10)(cid:4)i dùng ph(cid:5)i (cid:7)(cid:10)(cid:26)c nh(cid:14)n bi(cid:8)t b0ng cách s% d!ng username và password. M(cid:23)t tài kho(cid:5)n ng(cid:10)(cid:4)i dùng (user account) là “anonymous” (cid:7)(cid:10)(cid:26)c cung c#p cho vi(cid:9)c truy xu#t chung (m(cid:12)i ng(cid:10)(cid:4)i (cid:7)(cid:31)u có th(cid:28) truy c(cid:14)p vào v(cid:20)i user account này). H(cid:9) th(cid:17)ng b(cid:5)o m(cid:14)t s% d!ng c(cid:5) hai lo(cid:11)i: c(cid:6) s(cid:3) d(cid:25) li(cid:9)u b(cid:5)o m(cid:14)t c$a windows (cid:7)(cid:28) xác nh(cid:14)n các ng(cid:10)(cid:4)i dùng windows và m(cid:23)t c(cid:6) s(cid:3) d(cid:25) li(cid:9)u ng(cid:10)(cid:4)i dùng bên trong. C/ng nh(cid:10) Internet Explore, NT Authentication (s(cid:13) ch(cid:27)ng th(cid:13)c (cid:3) m(cid:27)c NT) có th(cid:28) (cid:7)(cid:10)(cid:26)c s% d!ng v(cid:20)i http. M(cid:15)i thành ph(cid:2)n (item) (cid:7)(cid:10)(cid:26)c qu(cid:5)n lý b(cid:3)i RDF Gateway có th(cid:28) b(cid:19) gi(cid:20)i 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 137 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh h(cid:11)n (cid:7)(cid:17)i v(cid:20)i các user (cid:7)(cid:10)(cid:26)c (cid:7)(cid:19)nh ngh a, các thành ph(cid:2)n này bao g1m: các package, các (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc table, data source và các component. ( c#p (cid:7)(cid:23) table, d- dàng (cid:7)(cid:28) s%a (cid:7).i vi(cid:9)c (cid:7)(cid:12)c, vi(cid:8)t, và xoá các quy(cid:31)n cho các user riêng bi(cid:9)t. M(cid:23)t khái ni(cid:9)m b(cid:5)o m(cid:14)t d(cid:13)a trên dòng (cid:7)(cid:17)i v(cid:20)i các l(cid:9)nh RDF trong các table (cid:7)(cid:10)(cid:26)c d(cid:13)a trên c(cid:23)t “context”, tr(cid:10)(cid:4)ng thêm vào th(cid:27) t(cid:10) này (cid:7)(cid:10)(cid:26)c add vào subject, predicate, và object. M(cid:23)t user có th(cid:28) (cid:7)(cid:10)(cid:26)c cho phép (cid:7)(cid:28) (cid:7)(cid:12)c, vi(cid:8)t, và xoá các quy(cid:31)n (rights) (cid:7)(cid:17)i v(cid:20)i m(cid:23)t context riêng bi(cid:9)t. Không h(cid:31) có s(cid:13) h(cid:15) tr(cid:26) (cid:7)(cid:17)i v(cid:20)i m(cid:23)t nhóm ng(cid:10)(cid:4)i s% d!gn (user group – trong RDF Gateway không có khái ni(cid:9)m này). o Configuration and Management (c(u hình và qu(cid:19)n lý) Các s(cid:13) s(cid:16)p (cid:7)"t (setting) c#u hình chi ti(cid:8)t (cid:7)(cid:10)(cid:26)c truy c(cid:14)p thông qua giao di(cid:9)n web, giao di(cid:9)n này (cid:7)(cid:10)(cid:26)c d(cid:21)n vào nh(cid:4) web server g(cid:16)n li(cid:31)n. Ng(cid:10)(cid:4)i dùng ph(cid:5)i (cid:7)(cid:18)ng nh(cid:14)p vào b0ng cách s% d!ng m(cid:23)t account có vai trò là administrator c$a windows. 7ng d!ng web này (cid:7)(cid:10)(cid:26)c (cid:7)"t tên là “RDF Gateway Management Utility” và cung c#p truy c(cid:14)p (cid:7)(cid:8)n các databases, tables, users, contexts, ActiveX Components, Data Services, Roles, Packages, MimeTypes và Timers. (cid:1)(cid:17)i v(cid:20)i h(cid:2)u h(cid:8)t các thành ph(cid:2)n này, thì các ch(cid:12)n l(cid:13)a b(cid:5)o m(cid:14)t v(cid:31) s(cid:13) cho phép có th(cid:28) (cid:7)(cid:10)(cid:26)c (cid:7)"t. Ti(cid:9)n ích qu(cid:5)n lý (cid:7)(cid:10)(cid:26)c th(cid:13)c thi nh(cid:10) là RDF Gateway web package. Trên (cid:7)ây là nh(cid:25)ng gi(cid:20)i thi(cid:9)u bao quát v(cid:31) RDF Gateway. Ngoài ra ta c/ng có th(cid:28) xem thêm v(cid:31) cú pháp cu(cid:5) RDF Gateway khá chi ti(cid:8)t trong ph(cid:2)n help c$a ti(cid:9)n ích RDF 3. H& th(cid:26)ng nhãn ng% ngh!a: Query Analyzer. H(cid:9) th(cid:17)ng nhãn ng(cid:25) ngh a (cid:7)(cid:10)(cid:26)c gi(cid:20)i thi(cid:9)u (cid:3) (cid:7)ây g1m 3 ti(cid:28)u h(cid:9) th(cid:17)ng nh2 (cid:27)ng v(cid:20)i 3 t(cid:30) lo(cid:11)i: danh t(cid:30), (cid:7)(cid:23)ng t(cid:30) và tính t(cid:30). Trong m(cid:15)i ti(cid:28)u h(cid:9) th(cid:17)ng, l(cid:11)i (cid:7)(cid:10)(cid:26)c phân thành 2 c#p: c#p c(cid:6) b(cid:5)n ch(cid:27)a m(cid:23)t s(cid:17) ít các nhãn chung nh#t, s% d!ng nhi(cid:31)u nh#t và là nh(cid:25)ng 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 138 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh nhãn vi(cid:8)t t(cid:16)t (g(cid:26)i nh(cid:20)) d* nh(cid:20); và c#p chuyên sâu là nh(cid:25)ng nhãn theo h(cid:9) th(cid:17)ng (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc LLOCE. Ngoài ra, trong ph(cid:2)n này, c/ng còn li(cid:9)t kê m(cid:23)t s(cid:17) h(cid:9) th(cid:17)ng nhãn ng(cid:25) ngh a khác nh(cid:10) WordNet, CoreLex. 3.1. Nhãn ng% ngh!a c(cid:15) b(cid:19)n cho danh t": Mô t(cid:5) Ý ngh a Abstraction Nh(cid:25)ng gì tr(cid:30)u t(cid:10)(cid:26)ng Act Hành (cid:7)(cid:23)ng Agent Tác nhân Animal Sinh v(cid:14)t Artifact Nhân t(cid:11)o Attribute Thu(cid:23)c tính Body C(cid:6) th(cid:28) con ng(cid:10)(cid:4)i Cell T(cid:8) bào Chemical Hoá ch#t Communication Truy(cid:31)n tin H(cid:14)u qu(cid:5) Consequence Entity Th(cid:13)c th(cid:28) Event Bi(cid:8)n c(cid:17) Feel S(cid:13) c(cid:5)m nh(cid:14)n Female Gi(cid:17)ng cái/ n(cid:25) Food Th(cid:27)c (cid:18)n Gas Th(cid:28) khí Group biology Nhóm sinh h(cid:12)c Group Nhóm nói chung Group social Nhóm xã h(cid:23)i House Công trình xây d(cid:13)ng Shape, form Hình d(cid:11)ng Human Con ng(cid:10)(cid:4)i 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 139 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh STT Nhãn
1 ABS
2 ACT
3 AGT
4 ANM
5 ART
6 ATR
7 BDY
8 CEL
9 CHM
10 COM
11 CON
12 ENT
13 EVT
14 FEL
15 FEM
16 FOD
17 FRM
18 GAS
19 GRB
20 GRP
21 GRS
22 HOU
23 HUM (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc Life form S(cid:13) s(cid:17)ng Line (cid:1)(cid:10)(cid:4)ng, nét, d#u v(cid:8)t Liquid Th(cid:28) l2ng Linear measure (cid:1)o l(cid:10)(cid:4)ng Location V(cid:19) trí Location geography Vùng (cid:7)(cid:19)a lý Male Gi(cid:17)ng (cid:7)(cid:13)c/ nam Measure (cid:1)(cid:11)i l(cid:10)(cid:26)ng Microoragnism Vi sinh v(cid:14)t Motion S(cid:13) chuy(cid:28)n (cid:7)(cid:23)ng Natural object V(cid:14)t th(cid:28) thiên nhiên Phenomenon Hi(cid:9)n t(cid:10)(cid:26)ng Physical object V(cid:14)t th(cid:28) v(cid:14)t lý Plant Th(cid:13)c v(cid:14)t Possession S(cid:13) s(cid:3) h(cid:25)u Process Quá trình Part, piece B(cid:23) ph(cid:14)n Definite quantity (cid:1)(cid:11)i l(cid:10)(cid:26)ng h(cid:25)u h(cid:11)n Indefinite quantity (cid:1)(cid:11)i l(cid:10)(cid:26)ng vô h(cid:11)n Relation Quan h(cid:9) Solid Th(cid:28) r(cid:16)n Space Không gian State Tr(cid:11)ng thái Substance Ch#t li(cid:9)u Time Th(cid:4)i gian Psychological Thu(cid:23)c tính tâm lý Unit Thu(cid:23)c (cid:7)(cid:6)n v(cid:19) B(cid:19)ng 13: Nhãn ng(cid:25) ngh a c(cid:6) b(cid:5)n cho danh t(cid:30) 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 140 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh 24 LFR
25 LIN
26 LIQ
27 LME
28 LOC
29 LOG
30 MAL
31 MEA
32 MIC
33 MOT
34 NAT
35 PHM
36 PHO
37 PLT
38 POS
39 PRO
40 PRT
41 PSY
42 QUD
43 QUI
44 REL
45 SOL
46 SPC
47 STA
48 SUB
49 TME
50 UNT (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc 3.2. Nhãn ng% ngh!a c(cid:15) b(cid:19)n cho (cid:30)(cid:25)ng t": Mô t(cid:5) Ý ngh a STT Nhãn
1 VBDY Body Các (cid:7)(cid:23)ng t(cid:30) c$a c(cid:6) th(cid:28): (cid:18)n, m"c, … 2 VCHG Change Các (cid:7)(cid:23)ng t(cid:30) thu(cid:23)c v(cid:31) s(cid:13) thay (cid:7).i: t(cid:18)ng, (cid:7).i, … 3 VCOG Human Các (cid:7)(cid:23)ng t(cid:30) tri nh(cid:14)n: suy ngh , xét (cid:7)oán,… 4 VCOM Communication Các (cid:7)(cid:23)ng t(cid:30) truy(cid:31)n thông: k(cid:28), h2i, ra l(cid:9)nh, … 5 VCMP Competition Các (cid:7)(cid:23)ng t(cid:30) v(cid:31) c(cid:11)nh tranh: chi(cid:8)n (cid:7)#u, thi (cid:7)#u, … 6 VCSM Consumption Các (cid:7)(cid:23)ng t(cid:30) v(cid:31) tiêu th!: (cid:18)n, u(cid:17)ng, … 7 VCON Contact Các (cid:7)(cid:23)ng t(cid:30) v(cid:31) ti(cid:8)p xúc: (cid:7)ánh, (cid:7)ào, … 8 VCRE Creation Các (cid:7)(cid:23)ng t(cid:30) v(cid:31) s(cid:13) t(cid:11)o l(cid:14)p: s(cid:6)n, khâu, thi hành, … 9 VEMO Emotion Các (cid:7)(cid:23)ng t(cid:30) v(cid:31) c(cid:5)m giác: yêu, ghét,… 10 VMOT Motion Các (cid:7)(cid:23)ng t(cid:30) v(cid:31) chuy(cid:28)n (cid:7)(cid:23)ng: (cid:7)i, bay, b(cid:6)i, … 11 VPER Perception Các (cid:7)(cid:23)ng t(cid:30) v(cid:31) giác quan: nghe, th#y, c(cid:5)m th#y, … 12 VPOS Possession Các (cid:7)(cid:23)ng t(cid:30) v(cid:31) s(cid:3) h(cid:25)u: mua, bán, s(cid:3) h(cid:25)u, … 13 VSOC Social Các (cid:7)(cid:23)ng t(cid:30) v(cid:31) ho(cid:11)t (cid:7)(cid:23)ng xã h(cid:23)i: 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 141 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh b(cid:2)u c%, t(cid:11)i vì, … (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc Stative Các (cid:7)(cid:23)ng t(cid:30) v(cid:31) tr(cid:11)ng thái, quan h(cid:9) 14 VSTA không gian. 15 VWEA Weather Các (cid:7)(cid:23)ng t(cid:30) v(cid:31) th(cid:4)i ti(cid:8)t: m(cid:10)a, tuy(cid:8)t, s#m, … B(cid:19)ng 14: Nhãn ng(cid:25) ngh a c(cid:6) b(cid:5)n cho (cid:7)(cid:23)ng t(cid:30) 3.3. Nhãn ng% ngh!a c(cid:15) b(cid:19)n cho tính t": Mô t(cid:5) Ý ngh a Color Các tính t(cid:30) v(cid:31) màu s(cid:16)c: (cid:7)2, xanh, … Size Các tính t(cid:30) v(cid:31) kích th(cid:10)(cid:20)c: tròn, d(cid:24)t, … STT Nhãn
1 ACOL
2 ASIZ
3 ATME Time Các tính t(cid:30) thu(cid:23)c v(cid:31) th(cid:4)i gian: lâu, mau, … 4 ASPC Space Các tính t(cid:30) thu(cid:23)c v(cid:31) không gian: l(cid:20)n, nh2, dài, … Các tính t(cid:30) v(cid:31) s(cid:27)c m(cid:11)nh: m(cid:11)nh, y(cid:8)u, … Các tính t(cid:30) v(cid:31) m(cid:27)c (cid:7)(cid:23): nhi(cid:31)u, ít, … 5 ASTR
Strength
6 ADEG Degree
7 AFEA Feature Các tính t(cid:30) v(cid:31) (cid:7)"c (cid:7)i(cid:28)m, n(cid:23)i dung: khó, hay, … 8 AREF Reference Các tính t(cid:30) b. ngh a s(cid:3) ch&: former (president) 9 AREL Relation Các tính t(cid:30) quan h(cid:9): Vietnamese (war) B(cid:19)ng 15 : Nhãn ng(cid:25) ngh a c(cid:6) b(cid:5)n cho tính t(cid:30) 3.4. H& th(cid:26)ng nhãn ng% ngh!a LDOCE Mã ng(cid:25) ngh a c(cid:6) b(cid:5)n Mã ng(cid:25) ngh a phát sinh STT
1 A Con v(cid:14)t E Ch#t r(cid:16)n/ l2ng (S + (animal) L) 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 142 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh 2 B Con v(cid:14)t cái K Ng(cid:10)(cid:4)i/con v(cid:14)t (cid:7)(cid:13)c (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc (female animal) (D +M) 3 C V(cid:14)t c! th(cid:28) Ng(cid:10)(cid:4)i/ con v(cid:14)t (A O (concrete) + H) 4 D Con v(cid:14)t (cid:7)(cid:13)c Ng(cid:10)(cid:4)i/con v(cid:14)t cái R (male animal) (B + F) 5 F Ng(cid:10)(cid:4)i n(cid:25) T(cid:14)p h(cid:26)p ng(cid:10)(cid:4)i/con U (female human) v(cid:14)t (Col. + O) 6 G Khí (gas) Th(cid:13)c v(cid:14)t/ con v(cid:14)t V (P + A) Ng(cid:10)(cid:4)i (human) V(cid:14)t tr(cid:30)u t(cid:10)(cid:26)ng/c! 7 H W th(cid:28) (T + I) 8 I V(cid:14)t c! th(cid:28) V(cid:14)t tr(cid:30)u t(cid:10)(cid:26)ng/ X không có s(cid:13) s(cid:17)ng ng(cid:10)(cid:4)i (T + H) 9 J V(cid:14)t r(cid:16)n di V(cid:14)t tr(cid:30)u t(cid:10)(cid:26)ng/ có Y chu4ên (cid:7)(cid:10)(cid:26)c s(cid:13) s(cid:17)ng (T + Q) 10 L Ch#t l2ng Ng(cid:10)(cid:4)i /ch#t r(cid:16)n ( 1 (liquid) H + S) 11 Ng(cid:10)(cid:4)i nam ( Tr(cid:30)u t(cid:10)(cid:26)ng/ ch#t 2 M male human) r(cid:16)n ( T + S) 12 N V(cid:14)t r(cid:16)n không Ch#t l2ng/ tr(cid:30)u 6 di chuy(cid:28)n (cid:7)(cid:10)(cid:26)c t(cid:10)(cid:26)ng (L + T) 13 P Th(cid:13)c v(cid:14)t ( Ch#t khí/ ch#t l2ng 7 plant) (G + L) 14 Q Có s(cid:13) s(cid:17)ng (animate) S Ch#t r(cid:16)n (solid) 15
16 T Tr(cid:30)u t(cid:10)(cid:26)ng 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 143 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh (abstract) (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc Z Không (cid:7)ánh d#u 17 (unmarked) 18 4 V(cid:14)t th(cid:28) tr(cid:30)u t(cid:10)(cid:26)ng (abs physic) 19 5 Ch#t h(cid:25)u c(cid:6) ( organic material) 4. H& c(cid:15) s$ tri th’c ng% ngh!a t" v#ng WordNet B(cid:19)ng 16: H& th(cid:26)ng nhãn ng% ngh!a LDOCE 4.1. H& th(cid:26)ng nhãn ng% ngh!a c a danh t": Tr(cid:10)(cid:20)c h(cid:8)t, ta s* tìm hi(cid:28)u nh(cid:25)ng h(cid:11)n ch(cid:8) trong cách l(cid:10)u tr(cid:25) thông tin v(cid:31) ng(cid:25) ngh a c$a danh t(cid:30) (cid:3) t(cid:30) (cid:7)i(cid:28)n thông th(cid:10)(cid:4)ng, t(cid:30) (cid:7)ó, chúng ta m(cid:20)i th#y nh(cid:25)ng (cid:10)u th(cid:8) c$a WordNet trong cách l(cid:10)u tr(cid:25), truy xu#t, c(cid:14)p nh(cid:14)t các thông tin (cid:7)ó. 4.1.1. T(cid:27) ch’c c a danh t" trong t" (cid:30)i6n thông th(cid:14)7ng: Khi ta tra m(cid:23)t danh t(cid:30) nào (cid:7)ó trong các t(cid:30) (cid:7)i(cid:28)n thông th(cid:10)(cid:4)ng, ta s* nh(cid:14)n (cid:7)(cid:10)(cid:26)c nh(cid:25)ng l(cid:4)i gi(cid:5)i thích có v, khá (cid:7)(cid:2)y (cid:7)$. Ví d!, tra t(cid:30) “tree” (cây), ta s* nh(cid:14)n (cid:7)(cid:10)(cid:26)c (cid:7)(cid:19)nh ngh a “tree is a plant that is large, woody, perennial and has a distinct trunk” ( cây là m(cid:23)t th(cid:8)c v(cid:22)t mà có thân, s(cid:17)ng lâu n(cid:18)m, có g(cid:15), kích th(cid:10)(cid:20)c l(cid:20)n). (cid:1)(cid:17)i v(cid:20)i nh(cid:25)ng ng(cid:10)(cid:4)i có ki(cid:8)n th(cid:27)c ph. thông, có th(cid:28) ch#p nh(cid:14)n (cid:7)(cid:19)nh ngh a này. Nh(cid:10)ng n(cid:8)u chúng ta mu(cid:17)n bi(cid:8)t sâu h(cid:6)n nh(cid:10) “cây có r-, có t(cid:8) bào xen – lu – lô, là t. ch(cid:27)c có s(cid:13) s(cid:17)ng, …” thì ta c(cid:2)n ph(cid:5)i tra ng(cid:25) ngh a c$a t(cid:30) “plant”, tuy nhiên khi tra t(cid:30) “plant”, ta s* nh(cid:14)n (cid:7)(cid:10)(cid:26)c hai l(cid:4)i gi(cid:5)i thích hoàn toàn khác nhau: m(cid:23)t dành cho ngh a “nhà máy” và m(cid:23)t dành cho ngh a “th(cid:13)c v(cid:14)t”. Câu h2i (cid:7)"t ra là, khi mu(cid:17)n truy xu#t t(cid:13) (cid:7)(cid:23)ng, thì máy tính s* ch(cid:12)n ngh a nào? (cid:1)ây là h(cid:11)n ch(cid:8) c$a các t(cid:30) (cid:7)i(cid:28)n thông th(cid:10)(cid:4)ng. Các t(cid:30) (cid:7)i(cid:28)n thông th(cid:10)(cid:4)ng ch$ y(cid:8)u thi(cid:8)u thông tin mang tính c#u trúc (structure), vì (cid:7)(cid:19)nh ngh a c$a nó ch& mang thông tin có tính d(cid:25) ki(cid:9)n (fact), và do cách 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 144 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh t. ch(cid:27)c theo v(cid:2)n abc, nên không th(cid:28) ch(cid:27)a (cid:3) m(cid:15)i t(cid:30) m(cid:12)i thông tin có liên quan trong (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc (cid:7)(cid:19)nh ngh a c$a nó (cid:7)(cid:10)(cid:26)c, vì làm nh(cid:10) v(cid:14)y s* trùng l(cid:16)p thông tin, kích th(cid:10)(cid:20)c c$a t(cid:30) (cid:7)i(cid:28)n s* vô cùng l(cid:20)n và không kinh t(cid:8). Cu(cid:17)i cùng, m(cid:23)t khuy(cid:8)t (cid:7)i(cid:28)m l(cid:20)n nh#t mà h(cid:2)u h(cid:8)t các t(cid:30) (cid:7)i(cid:28)n thông th(cid:10)(cid:4)ng (cid:7)(cid:31)u g"p ph(cid:5)i, (cid:7)ó là vi(cid:9)c (cid:7)(cid:19)nh ngh a vòng tròn. Ngh a là: dùng t(cid:30) Wa (cid:7)(cid:28) (cid:7)(cid:19)nh ngh a t(cid:30) Wb, r1i l(cid:11)i có ch(cid:15) l(cid:11)i dùng t(cid:30) Wb (cid:7)(cid:28) (cid:7)(cid:19)nh ngh a l(cid:11)i t(cid:30) Wa. 4.1.2. T(cid:27) ch’c d% li&u danh t" trong WordNet Th#y (cid:7)(cid:10)(cid:26)c các khuy(cid:8)t (cid:7)i(cid:28)m c$a t(cid:30) (cid:7)i(cid:28)n thông th(cid:10)(cid:4)ng, WordNet l(cid:10)u tr(cid:25) danh t(cid:30) thành m(cid:23)t h(cid:9) th(cid:17)ng phân c#p hình cây d(cid:13)a theo quan h(cid:9) h(cid:11) danh (hyponymy) và th(cid:10)(cid:26)ng danh (hypernymy). Xu#t phát t(cid:30) g(cid:17)c là m(cid:23)t ý ni(cid:9)m cha r#t t.ng quát, d(cid:13)a theo quan h(cid:9) th(cid:10)(cid:26)ng danh (hypernymy), t(cid:5) gi(cid:5) phân (nhánh) thành các ý ni(cid:9)m con c! th(cid:28) h(cid:6)n, r1i c/ng t(cid:30) chính các ý ni(cid:9)m con này, l(cid:11)i ti(cid:8)p t!c phân nh2 n(cid:25)a thành các ý ni(cid:9)m chi ti(cid:8)t h(cid:6)n, và c(cid:27) nh(cid:10) th(cid:8) (cid:7)(cid:8)n khi không còn c(cid:2)n thi(cid:8)t phân chia n(cid:25)a (trung bình c(cid:22) ch!c c#p) và nút t(cid:14)n cùng (cid:7)ó (nút lá) chính là các danh t(cid:30). Ví d!, “cây s1i” (oak) là m(cid:23)t loài “cây” (tree), “cây” là m(cid:23)t loài “th(cid:13)c v(cid:14)t” (plant), “th(cid:13)c v(cid:14)t” là m(cid:23)t loài “h(cid:25)u c(cid:6)” (organism). Trong WordNet s* di-n t(cid:5) nh(cid:10)
sau: oak @ → tree @ → plant @ → organism, v(cid:20)i ký hi(cid:9)u “@ →” (cid:7)(cid:28) tr2 (cid:7)(cid:8)n nút cha, th(cid:28) hi(cid:9)n quan h(cid:9) h(cid:11) danh (hyponymy), hay còn g(cid:12)i là quan h(cid:9) ISA. (cid:1)(cid:17)i l(cid:14)p v(cid:20)i quan h(cid:9) h(cid:11) danh là quan h(cid:9) th(cid:10)(cid:26)ng danh (hypernymy) và trong WordNet, quan h(cid:9) này
(cid:7)(cid:10)(cid:26)c ký hi(cid:9)u là “~ →” (cid:7)(cid:28) tr2 (cid:7)(cid:8)n nút con, ví d!: organism ~ → plant ~ → tree ~ → oak ( vì WordNet (cid:7)(cid:10)(cid:26)c l(cid:10)u tr(cid:25) d(cid:10)(cid:20)i d(cid:11)ng (cid:7)i(cid:9)n t%, nên WordNet ch& c(cid:2)n l(cid:10)u quan h(cid:9) hyponymy m(cid:23)t cách t(cid:10)(cid:4)ng minh, còn quan h(cid:9) hypernymy s* (cid:7)(cid:10)(cid:26)c t(cid:13) (cid:7)(cid:23)ng suy ra t(cid:30) quan h(cid:9) hyponymy). V(cid:20)i cách t. ch(cid:27)c phân c#p nh(cid:10) trên, WordNet không c(cid:2)n l(cid:10)u m(cid:12)i tính ch#t c$a m(cid:15)i ý ni(cid:9)m (nút), mà ch& c(cid:2)n l(cid:10)u (cid:7)"c (cid:7)i(cid:28)m riêng c$a ý ni(cid:9)m (cid:7)ó mà thôi, còn các tính ch#t khác (cid:7)(cid:10)(cid:26)c t(cid:13) (cid:7)(cid:23)ng suy di-n ra t(cid:30) (cid:7)"c tính chung (cid:7)(cid:10)(cid:26)c k(cid:8) th(cid:30)a t(cid:30) ý ni(cid:9)m cha cùng v(cid:20)i các (cid:7)"c tính khác c$a các ý ni(cid:9)m con. (cid:1)i(cid:31)u này giúp cho WordNet kh(cid:16)c ph!c (cid:7)(cid:10)(cid:26)c các khuy(cid:8)t (cid:7)i(cid:28)m c$a t(cid:30) (cid:7)i(cid:28)n thông th(cid:10)(cid:4)ng (không l(cid:10)u trùng l(cid:16)p thông tin mà v(cid:21)n ch(cid:27)a 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 145 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh (cid:7)(cid:2)y (cid:7)$ thông tin, ti(cid:8)t ki(cid:9)m không gian l(cid:10)u tr(cid:25)). (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc Ngoài ra, v(cid:20)i các t. ch(cid:27)c phân c#p có k(cid:8) th(cid:30)a nh(cid:10) trên, WordNet kh(cid:16)c ph!c (cid:7)(cid:10)(cid:26)c hi(cid:9)n t(cid:10)(cid:26)ng (cid:7)(cid:19)nh ngh a vòng quanh, không bao gi(cid:4) có hi(cid:9)n t(cid:10)(cid:26)ng t(cid:30) Wa (cid:7)(cid:19)nh ngh a t(cid:30) Wb, r1i chính Wb l(cid:11)i (cid:7)(cid:19)nh ngh a Wa. Vì theo t. ch(cid:27)c hình cây, m(cid:15)i lo(cid:11)i quan h(cid:9) ch& có m(cid:23)t chi(cid:31)u nh#t (cid:7)(cid:19)nh, ví d! quan h(cid:9) th(cid:10)(cid:26)ng danh, ch& có chi(cid:31)u t(cid:30) trên xu(cid:17)ng d(cid:10)(cid:20)i, (cid:7)i t(cid:30) t.ng th(cid:28) (cid:7)(cid:8)n chi ti(cid:8)t ( chuyên bi(cid:9)t hoá), còn quan h(cid:9) h(cid:11) danh thì ng(cid:10)(cid:26)c l(cid:11)i: (cid:7)i t(cid:30) d(cid:10)(cid:20)i lên trên, (cid:7)i t(cid:30) chi ti(cid:8)t (cid:7)(cid:8)n t.ng th(cid:28) (t.ng quát hoá). Tuy nhiên, không ph(cid:5)i m(cid:12)i thông tin v(cid:31) th(cid:8) gi(cid:20)i th(cid:13)c (cid:7)(cid:31)u (cid:7)(cid:10)(cid:26)c l(cid:10)u trong các ý ni(cid:9)m c$a WordNet, nên trên th(cid:13)c t(cid:8), ta c/ng không th(cid:28) có (cid:7)(cid:10)(cid:26)c (cid:7)(cid:2)y (cid:7)$ hoàn toàn các tri th(cid:27)c v(cid:31) th(cid:8) gi(cid:20)i th(cid:13)c c$a “cây” nh(cid:10) tri th(cid:27)c c$a ng(cid:10)(cid:4)i (cid:7)(cid:10)(cid:26)c. Ví d!: WordNet không l(cid:10)u nh(cid:25)ng thông tin, nh(cid:10): “cây” cho bóng mát, cây khô có th(cid:28) làm c$i (cid:7)un, …. Hi(cid:9)n nay, WordNet ch(cid:10)a liên k(cid:8)t “bác s ” v(cid:20)i “b(cid:9)nh vi(cid:9)n”, ch(cid:10)a th(cid:28) liên k(cid:8)t “v(cid:26)t”, “banh”, “l(cid:10)(cid:20)i”, … v(cid:20)i “sân ch(cid:6)i tennis”. 4.1.3. Các ý ni&m nguyên thu2 (primitive semantic) Trong WordNet, ta có “gia ph(cid:5)” c$a t(cid:30) “oak” nh(cid:10) sau: {oak} @→ {tree} @→ {plant, flora} @→ {organism, living thing} @→ {thing, entity}. Nh(cid:10) v(cid:14)y, ý ni(cid:9)m {thing, entity} là m(cid:23)t ý ni(cid:9)m g(cid:17)c, ý ni(cid:9)m cao nh#t, t.ng quát nh#t, chính vì v(cid:14)y nó ch+ng mang m(cid:23)t ý ngh a gì ( vì nó là cái gì (cid:7)ó r#t chung chung) và m(cid:12)i ý ni(cid:9)m trong WordNet (cid:7)(cid:31)u d(cid:21)n t(cid:20)i ý ni(cid:9)m g(cid:17)c (cid:7)ó ((cid:7)(cid:31)u là con cháu c$a nó). Tuy nhiên, n(cid:8)u ta t. ch(cid:27)c cây ý ni(cid:9)m danh t(cid:30) v(cid:20)i m(cid:23)t g(cid:17)c ý ni(cid:9)m duy nh#t trên cây thì s* khi(cid:8)n cho cây có kích th(cid:10)(cid:20)c r#t l(cid:20)n, vi(cid:9)c t. ch(cid:27)c các nhãn cho các ý ni(cid:9)m ph(cid:5)i chi ti(cid:8)t h(cid:6)n (cid:7)(cid:28) tránh trùng nhau. Ví d!: gi(cid:25)a “plant” c$a ý ni(cid:9)m “th(cid:13)c v(cid:14)t” và “plant” c$a ý ni(cid:9)m “nhà máy”, WordNet ph(cid:5)i dùng 2 nhãn (d(cid:11)ng t(cid:30)) khác nhau (cid:7)(cid:28) phân bi(cid:9)t, h(cid:6)n n(cid:25)a, s(cid:13) gom v(cid:31) chung m(cid:23)t g(cid:17)c l(cid:20)n nh(cid:10) v(cid:14)y thì c/ng ch+ng có k(cid:8) th(cid:30)a (cid:7)(cid:10)(cid:26)c thông tin gì ( vì các ý ni(cid:9)m g(cid:17)c là r#t chung chung, ít thông tin). Chính vì v(cid:14)y mà WordNet (cid:7)ã phân thành 25 g(cid:17)c chính nh(cid:10) b(cid:5)ng d(cid:10)(cid:20)i (cid:7)ây mô t(cid:5). Các g(cid:17)c này (cid:7)(cid:10)(cid:26)c g(cid:12)i là các ý ni(cid:9)m nguyên thu4. M(cid:15)i cây nh(cid:10) v(cid:14)y (cid:7)(cid:10)(cid:26)c l(cid:10)u thành m(cid:23)t t(cid:14)p tin riêng r*. Chính vì v(cid:14)y, mà khi g"p nhãn “plant” (th(cid:13)c v(cid:14)t) nh(cid:10) trên, thì máy tính không nh0m l(cid:21)n v(cid:20)i “plant” có ngh a “nhà máy”, vì cây ý ni(cid:9)m mà ch(cid:27)a 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 146 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh “tree” là cây mà có ý ni(cid:9)m nguyên thu4 là {plant} (th(cid:13)c v(cid:14)t) (cid:7)(cid:10)(cid:26)c l(cid:10)u riêng bi(cid:9)t v(cid:20)i (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc cây ý ni(cid:9)m mà có ch(cid:27)a “plant” v(cid:20)i ngh a là “nhà máy” (ý ni(cid:9)m này (cid:7)(cid:10)(cid:26)c l(cid:10)u trong cây khác, cây mà có ý ni(cid:9)m nguyên thu4 là {artifact}). Quan sát 25 ý ni(cid:9)m nguyên thu4 (cid:7)ó, ta th#y có m(cid:23)t s(cid:17) ý ni(cid:9)m có nh(cid:25)ng nét ngh a chung nhau (ví d!: {animal}, {person}, {plant} (cid:7)(cid:31)u là nh(cid:25)ng v(cid:14)t có s(cid:13) s(cid:17)ng), chính vì v(cid:14)y mà trong WordNet, nh(cid:25)ng ý ni(cid:9)m có chung nét ngh a nh(cid:10) v(cid:14)y s* (cid:7)(cid:10)(cid:26)c nhóm v(cid:20)i nhau (cid:7)(cid:28) t(cid:11)o thành con c$a m(cid:23)t ý ni(cid:9)m cao h(cid:6)n. Sau khi nhóm rút g(cid:12)n l(cid:11)i, trong WordNet ch& còn 11 ý ni(cid:9)m nguyên thu4 (nh(cid:25)ng ý ni(cid:9)m (cid:7)(cid:10)(cid:26)c in nghiêng trong b(cid:5)ng d(cid:10)(cid:20)i (cid:7)ây). Animal (súc v(cid:14)t) Organism Entity (v(cid:14)t có s(cid:13) (th(cid:13)c th(cid:28) Person (ng(cid:10)(cid:4)i) s(cid:17)ng) ti(cid:8)p xúc Plant (th(cid:13)c v(cid:14)t) (cid:7)(cid:10)(cid:26)c) Artifact ((cid:7)1 nhân t(cid:11)o) Object (v(cid:14)t th(cid:28) không Natural object (v(cid:14)t th(cid:28) t(cid:13) nhiên) Body (c(cid:6) th(cid:28)) có s(cid:13) s(cid:17)ng) Substance (ch#t) Food (th(cid:27)c (cid:18)n) Attribute (thu(cid:23)c tính) Abstraction ( tr(cid:30)u Quantity (s(cid:17) l(cid:10)(cid:26)ng ) t(cid:10)(cid:26)ng) Relation (quan h(cid:9)) Time (th(cid:4)i gian) Cognition (tri nh(cid:14)n) Psychology feature (v(cid:31) Feeling (c(cid:5)m giác) tâm lý) Motivation (tình c(cid:5)m) Natural phenomenon (hi(cid:9)n t(cid:10)(cid:26)ng Process (quá t(cid:13) nhiên) trình) Activity (ho(cid:11)t (cid:7)(cid:23)ng) Event (bi(cid:8)n c(cid:17)) Group (nhóm ng(cid:10)(cid:4)i) Possession (s(cid:3) h(cid:25)u) 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 147 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh Location (v(cid:19) trí ) (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc Shape (hình d(cid:11)ng) State (tr(cid:11)ng thái) B(cid:19)ng 17:S(cid:13) phân l(cid:20)p danh t(cid:30) trong WordNet Các ý ni(cid:9)m trong b(cid:5)ng trên (cid:7)ây (cid:7)(cid:10)(cid:26)c g(cid:12)i là nh(cid:25)ng ý ni(cid:9)m nguyên thu4 (primitive semantic component). T(cid:30) nh(cid:25)ng ý ni(cid:9)m nguyên thu4 này, WordNet (cid:7)ã xây d(cid:13)ng nên h(cid:9) th(cid:17)ng cây phân l(cid:20)p cho danh t(cid:30) theo quan h(cid:9) h(cid:11) danh (hyponymy) và th(cid:10)(cid:26)ng danh (hypermyny). V(cid:20)i cách s(cid:16)p x(cid:8)p nh(cid:10) trên, trong th(cid:13)c t(cid:8) s% d!ng WordNet, tác gi(cid:5) th#y (cid:7)(cid:23) sâu c$a cây WordNet r#t c(cid:11)n (c(cid:22) 10 – 12 c#p) và g(cid:2)n m(cid:23)t n%a trong s(cid:17) các ý ni(cid:9)m ph(cid:5)i (cid:7)i qua (cid:7)ó, mang ý ngh a k(cid:29) thu(cid:14)t nhi(cid:31)u h(cid:6)n. 4.1.4. (cid:12)(cid:31)c (cid:30)i6m riêng c a m=i ý ni&m trong h& phân c(p: Theo cách t. ch(cid:27)c c$a WordNet, các ý ni(cid:9)m con cùng k(cid:8) th(cid:30)a m(cid:23)t ý ni(cid:9)m cha, c(cid:2)n ph(cid:5)i có m(cid:23)t s(cid:17) (cid:7)"c tính riêng nh0m phân bi(cid:9)t v(cid:20)i ý ni(cid:9)m cha và các ý ni(cid:9)m anh em v(cid:20)i nó. Các (cid:7)"c tính phân bi(cid:9)t này g1m 3 lo(cid:11)i, ví d! v(cid:20)i ý ni(cid:9)m {robin} (chim c. (cid:7)2), nó có 3 lo(cid:11)i (cid:7)"c tính sau: (cid:5) Thu(cid:23)c tính (attributes), (n(cid:17)i v(cid:20)i tính t(cid:30)) [ màu = (cid:7)2, kích th(cid:10)(cid:20)c = nh2] (cid:5) B(cid:23) ph(cid:14)n (parts) (n(cid:17)i v(cid:20)i dnh t(cid:30)) [m2, lông,cánh]
(cid:5) Ch(cid:27)c n(cid:18)ng (functions) (n(cid:17)i v(cid:20)i (cid:7)(cid:23)ng t(cid:30)) = [hót, bay] T(cid:10)(cid:6)ng t(cid:13), ý ni(cid:9)m {canary} (chim vàng anh) c/ng là con c$a ý ni(cid:9)m {bird} (chim), có thu(cid:23)c tính [ màu = vàng, kích th(cid:10)(cid:20)c = nh2], có b(cid:23) ph(cid:14)n [ m2, lông, cánh], có kh(cid:5) n(cid:18)ng [hót, bay, (cid:7), tr(cid:27)ng]. V(cid:14)y ta th#y gi(cid:25)a {robin} và {canary} ((cid:7)(cid:31)u cùng là loài chim), có (cid:7)i(cid:28)m khác bi(cid:9)t v(cid:31) màu s(cid:16)c. Nh(cid:10) v(cid:14)y, thông tin c$a m(cid:23)t ý ni(cid:9)m chính là thông tin k(cid:8) th(cid:30)a t(cid:30) ý ni(cid:9)m cha c(cid:23)n thêm các (cid:7)"c tính riêng c$a nó. V(cid:14)y ta có th(cid:28) nói synset {A} là con c$a synset {B} n(cid:8)u t#t c(cid:5) các (cid:7)"c tính c$a synset {B} (cid:7)(cid:31)u có trong synset {A}. Vì v(cid:14)y m(cid:23)t t(cid:30) thu(cid:23)c synset con, có th(cid:28) làm ti(cid:31)n trí t(cid:13) (antecendent) thay cho m(cid:23)t t(cid:30) thu(cid:23)c synset cha, hay có th(cid:28) thay cho m(cid:23)t (cid:7)(cid:17)i t(cid:30) c$a m(cid:23)t (cid:7)(cid:23)ng t(cid:30) v(cid:20)i (cid:7)i(cid:31)u 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 148 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh ki(cid:9)n (cid:7)(cid:17)i t(cid:30) (cid:7)ó thu(cid:23)c synset cha. Ví d!: (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc - Trong câu “Tôi (cid:7)(cid:10)a anh #y m(cid:23)t cu(cid:21)n ti(cid:10)u thuy(cid:4)t hay, nh(cid:10)ng cu(cid:17)n sách (cid:7)ó làm anh ta bu1n”. Ta có cu(cid:21)n ti(cid:10)u thuy(cid:4)t là ý ni(cid:9)m con c$a ý ni(cid:9)m cu(cid:21)n sách, nên có th(cid:28) làm ti(cid:31)n trí t(cid:13) cho t(cid:30) cu(cid:21)n sách. - Trong câu “Tôi u(cid:17)ng n(cid:10)(cid:20)c”, có th(cid:28) thay th(cid:8) (cid:7)(cid:17)i t(cid:30) “n(cid:10)(cid:20)c” c$a (cid:7)(cid:23)ng t(cid:30) “u(cid:17)ng” b0ng b#t k3 (cid:7)(cid:17)i t(cid:30) nào mà thu(cid:23)c ý ni(cid:9)m con c$a nó, nh(cid:10): n(cid:11)(cid:23)c ngot, n(cid:11)(cid:23)c trà, n(cid:11)(cid:23)c su(cid:21)i, … 4.2. H& th(cid:26)ng nhãn ng% ngh!a c a (cid:30)(cid:25)ng t": (cid:1)(cid:23)ng t(cid:30) là t(cid:30) lo(cid:11)i quan tr(cid:12)ng nh#t và là t(cid:30) b(cid:16)t bu(cid:23)c ph(cid:5)i có (cid:7)(cid:17)i v(cid:20)i m(cid:12)i câu ti(cid:8)ng Anh. D(cid:13)a trên (cid:7)"c (cid:7)i(cid:28)m c$a (cid:7)(cid:23)ng t(cid:30), ta có th(cid:28) xác (cid:7)(cid:19)nh c#u trúc c$a câu (A.S. Hornby). D(cid:13)a trên (cid:7)(cid:23)ng t(cid:30), ta có th(cid:28) xác (cid:7)(cid:19)nh các vai trong câu (Fillmore). S(cid:17) l(cid:10)(cid:26)ng (cid:7)(cid:23)ng t(cid:30) trong ti(cid:8)ng Anh ch& b0ng 1/3 s(cid:17) l(cid:10)(cid:26)ng danh t(cid:30), còn m(cid:27)c (cid:7)(cid:23) m(cid:6) h1 ngh a c$a (cid:7)(cid:23)ng t(cid:30) thì l(cid:11)i cao h(cid:6)n (trung bình m(cid:23)t (cid:7)(cid:23)ng t(cid:30) có 2.11 ngh a, còn danh t(cid:30) có 1.74 ngh a). Ngh a c$a (cid:7)(cid:23)ng t(cid:30) r#t uy(cid:28)n chuy(cid:28)n, linh (cid:7)(cid:23)ng theo các danh t(cid:30) có liên quan (cid:7)(cid:8)n nó. WordNet chia các (cid:7)(cid:23)ng t(cid:30) thành 15 nhóm ((cid:3) trên) (cid:7)(cid:28) ch& các bi(cid:4)n c(cid:21) (event), hành (cid:3)(cid:18)ng (action) hay tr(cid:24)ng thái (state) khác nhau d(cid:13)a theo s(cid:13) phân chia v(cid:31) m"t ng(cid:25) ngh a, nh(cid:10): nhóm (cid:3)(cid:18)ng t(cid:17) ch(cid:19) ch(cid:12)c n(cid:20)ng và vi(cid:1)c ch(cid:20)m sóc c(cid:25) th(cid:10), s(cid:8) nh(cid:22)n th(cid:12)c, quan h(cid:1) xã h(cid:18)i, …. Vi(cid:9)c xây d(cid:13)ng t(cid:14)p (cid:7)1ng ngh a (synset) cho (cid:7)(cid:23)ng t(cid:30) c/ng g"p nhi(cid:31)u khó kh(cid:18)n h(cid:6)n so v(cid:20)i danh t(cid:30) vì khó xác (cid:7)(cid:19)nh t(cid:30) (cid:7)1ng ngh a. Ta th#y trong ti(cid:8)ng Anh có m(cid:23)t s(cid:17) (cid:7)(cid:23)ng t(cid:30) (cid:7)1ng ngh a, nh(cid:10): begin – commence (b(cid:16)t (cid:7)(cid:2)u), end – terminate (k(cid:8)t thúc), buy – purchase (mua), hide – conceal (gi#u), … nh(cid:10)ng th(cid:13)c ch#t vi(cid:9)c dùng l(cid:21)n l(cid:23)n các (cid:7)(cid:23)ng t(cid:30) (cid:7)1ng ngh a này không ph(cid:5)i lúc nào c/ng (cid:7)úng. Ví d!: ng(cid:10)(cid:4)i ta th(cid:10)(cid:4)ng nói “Where have you hidden Dad’s slippers?” (Anh gi#u dép c$a Dad (cid:3) (cid:7)âu?) ch(cid:27) không nói là “Where have you concealed Dad’s slippers?”. Vi(cid:9)c bi(cid:28)u di-n ng(cid:25) ngh a và t. ch(cid:27)c (cid:7)(cid:23)ng t(cid:30) là (cid:7)i(cid:31)u khó kh(cid:18)n nh#t so v(cid:20)i các t(cid:30) lo(cid:11)i khác. Có r#t nhi(cid:31)u cách ti(cid:8)p c(cid:14)n khác nhau (cid:7)(cid:28) bi(cid:28)u di-n ng(cid:25) ngh a c$a (cid:7)(cid:23)ng t(cid:30), ch$ y(cid:8)u là phân rã ng(cid:25) ngh a (cid:7)(cid:23)ng t(cid:30) thành d(cid:11)ng này hay d(cid:11)ng khác. Sau (cid:7)ây là m(cid:23)t 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 149 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh s(cid:17) cách phân gi(cid:5)i ng(cid:25) ngh a (cid:7)(cid:23)ng t(cid:30). (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc 4.2.1. S# phân gi(cid:19)i ng% ngh!a c a (cid:30)(cid:25)ng t": H(cid:2)u h(cid:8)t các cách ti(cid:8)p c(cid:14)n (cid:7)(cid:17)i v(cid:20)i ng(cid:25) ngh a (cid:7)(cid:23)ng t(cid:30) là c(cid:17) g(cid:16)ng phân gi(cid:5)i ng(cid:25) ngh a (cid:7)(cid:23)ng t(cid:30) thành m(cid:23)t s(cid:17) h(cid:25)u h(cid:11)n các thành ph(cid:2)n ý ni(cid:9)m – ng(cid:25) ngh a ph. quát (universal semantic – conceptial components), hay còn g(cid:12)i là ý ni(cid:9)m nguyên thu4, nguyên t(cid:17), s(cid:6) kh(cid:3)i, v(cid:19) t(cid:30) nguyên t%, danh t(cid:30) (cid:7)ánh d#u (noun marker), ví d!: (cid:7)(cid:23)ng t(cid:30) “kill” (gi(cid:8)t) = {CAUSE TO BECOME NOT ALIVE} (gây ra s(cid:13) d(cid:21)n (cid:7)(cid:8)n không s(cid:17)ng). Cách ti(cid:8)p c(cid:14)n này (cid:7)ã nh(cid:14)n (cid:7)(cid:10)(cid:26)c nhi(cid:31)u ý ki(cid:8)n khác nhau, có ng(cid:10)(cid:4)i (cid:7)1ng tình (Katz, Lakoff, Jackendoff, Schank, Miller) nh(cid:10)ng c/ng có ng(cid:10)(cid:4)i ph(cid:5)n (cid:7)(cid:17)i cho là không thích h(cid:26)p (Chomsky và m(cid:23)t s(cid:17) ng(cid:10)(cid:4)i khác). S(cid:13) phân tích ng(cid:25) ngh a quan h(cid:9) c$a (cid:7)(cid:23)ng t(cid:30) khác v(cid:20)i s(cid:13) phân gi(cid:5)i ng(cid:25) ngh a c$a (cid:7)(cid:23)ng t(cid:30). S(cid:13) phân gi(cid:5)i ng(cid:25) ngh a ch$ y(cid:8)u d(cid:13)a trên các ý ni(cid:9)m c(cid:6) s(cid:3) ((cid:7)(cid:6)n v(cid:19) ng(cid:25) ngh a nh2 nh#t), còn s(cid:13) phân tích ng(cid:25) ngh a quan h(cid:9) l(cid:11)i d(cid:13)a vào các ý ni(cid:9)m c(cid:18)n b(cid:5)n (cid:7)ã hình thành trong (cid:7)(cid:2)u óc c$a con ng(cid:10)(cid:4)i. Ví d!: nh(cid:10) quan h(cid:9) CAUSE (nguyên nhân) liên k(cid:8)t các c"p (cid:7)(cid:23)ng t(cid:30) teach (d(cid:11)y) – learn (h(cid:12)c), show (ch&) – see (th#y), d(cid:13)a trên quan h(cid:9) này c/ng giúp ta phân bi(cid:9)t m(cid:23)t cách có h(cid:9) th(cid:17)ng (cid:7)âu là tha (cid:7)(cid:23)ng t(cid:30) (transitive verb) và (cid:7)âu là t(cid:13) (cid:7)(cid:23)ng t(cid:30) (intransitive verb). 4.2.2. Quan h& kéo theo c a (cid:30)(cid:25)ng t": Trong WordNet, m(cid:15)i t(cid:30) lo(cid:11)i (cid:7)(cid:10)(cid:26)c t. ch(cid:27)c d(cid:13)a theo m(cid:23)t quan h(cid:9) chính nào (cid:7)ó, ví d!: danh t(cid:30) thì d(cid:13)a theo quan h(cid:9) h(cid:11) danh (hyponymy), tính t(cid:30) thì d(cid:13)a theo quan h(cid:9) ph(cid:5)n ngh a (antonymy), còn (cid:7)(cid:23)ng t(cid:30) thì d(cid:13)a vào quan h(cid:9) kéo theo (entialment). Gi(cid:25)a quan h(cid:9) kéo theo có ph(cid:2)n nào (cid:7)ó gi(cid:17)ng quan h(cid:9) b(cid:23) ph(cid:14)n (meronymy), nh(cid:10)ng không thích h(cid:26)p cho ý ngh a V1 là b(cid:23) ph(cid:14)n c$a V2 gi(cid:17)ng nh(cid:10) bên danh t(cid:30). Ví d!: ta th% xét có ph(cid:5)i “thinking” (s(cid:13) suy ngh ) là m(cid:23)t b(cid:23) ph(cid:14)n c$a “planning” (vi(cid:9)c ho(cid:11)ch (cid:7)(cid:19)nh) hay không? Nh(cid:10)ng nhi(cid:31)u ng(cid:10)(cid:4)i cho r0ng (cid:7)(cid:23)ng t(cid:30) không th(cid:28) phân chia b(cid:23) ph(cid:14)n gi(cid:17)ng nh(cid:10) danh t(cid:30) vì: các danh t(cid:30) và các b(cid:23) ph(cid:14)n c$a danh t(cid:30) (cid:7)(cid:31)u có s(cid:3) ch& v(cid:14)t (referent) c! th(cid:28), phân bi(cid:9)t trong khi (cid:7)ó bên (cid:7)(cid:23)ng t(cid:30) thì không (cid:7)(cid:10)(cid:26)c rõ ràng nh(cid:10) v(cid:14)y. Ngoài ra, quan h(cid:9) gi(cid:25)a 2 (cid:7)(cid:23)ng t(cid:30) còn ph! thu(cid:23)c vào th(cid:4)i gian th(cid:13)c hi(cid:9)n, x(cid:5)y ra hành 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 150 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh (cid:7)(cid:23)ng, bi(cid:8)n c(cid:17) (bên danh t(cid:30): quan h(cid:9) b(cid:23) ph(cid:14)n không ph! thu(cid:23)c vào th(cid:4)i gian). M(cid:23)t (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc hành (cid:7)(cid:23)ng hay bi(cid:8)n c(cid:17) (cid:7)(cid:10)(cid:26)c g(cid:12)i là m(cid:23)t b(cid:23) ph(cid:14)n c$a m(cid:23)t hành (cid:7)(cid:23)ng hay bi(cid:8)n c(cid:17) khác ch& khi nó là m(cid:23)t ph(cid:2)n, m(cid:23)t giai (cid:7)o(cid:11)n trong quá trình th(cid:13)c hi(cid:9)n c$a hành (cid:7)(cid:23)ng kia. Tóm l(cid:11)i, qua quan sát các tr(cid:10)(cid:4)ng trên, ta rút ra nh(cid:14)n (cid:7)(cid:19)nh sau: n(cid:4)u V1 kéo theo V2 và n(cid:4)u th(cid:6)i gian di(cid:26)n ra V1 n(cid:27)m trong hay bao hàm th(cid:6)i gian di(cid:26)n ra V2 thì gi(cid:13)a V1 và V2 có quan h(cid:1) b(cid:18) ph(cid:22)n – toàn th(cid:10) (part – whole). 4.2.3. Quan h& cách th’c (cid:30)(cid:31)c bi&t c a (cid:30)(cid:25)ng t": Trong WordNet, quan h(cid:9) h(cid:11) danh (hyponymy) (cid:7)óng vai trò chính trong vi(cid:9)c t. ch(cid:27)c danh t(cid:30), ví d!: “canary” (chim vàng anh) là m(cid:23)t lo(cid:11)i (h(cid:11) danh c$a) “bird” (chim), nh(cid:10)ng (cid:7)(cid:17)i v(cid:20)i (cid:7)(cid:23)ng t(cid:30), ta th#y không thích h(cid:26)p n(cid:8)u nói “limp” ((cid:7)i kh(cid:14)p khi-ng) là m(cid:23)t lo(cid:11)i c$a “walk” ((cid:7)i b(cid:23)). (cid:1)i(cid:31)u này là do: s(cid:13) khác bi(cid:9)t ng(cid:25) ngh a gi(cid:25)a 2 (cid:7)(cid:23)ng t(cid:30) thì khác v(cid:20)i nh(cid:25)ng (cid:7)"c tr(cid:10)ng phân bi(cid:9)t gi(cid:25)a 2 danh t(cid:30) trong quan h(cid:9) h(cid:11) danh. Trong vi(cid:9)c xem xét quan h(cid:9) “h(cid:11) danh” c$a (cid:7)(cid:23)ng t(cid:30), ng(cid:10)(cid:4)i ta nh(cid:14)n th#y nó không (cid:7)(cid:6)n gi(cid:5)n nh(cid:10) danh t(cid:30), mà nó liên quan (cid:7)(cid:8)n s(cid:13) cân nh(cid:16)c t& m& v(cid:31) ng(cid:25) ngh a trên các tr(cid:10)(cid:4)ng ngh a (semantic field) khác nhau. Ví d!: khi phân tích các (cid:7)(cid:23)ng t(cid:30) chuy(cid:28)n (cid:7)(cid:23)ng: “slide” (tr(cid:10)(cid:26)t) và “pull” (kéo), ng(cid:10)(cid:4)i ta nh(cid:14)n th#y r0ng chúng là m(cid:23)t s(cid:13) k(cid:8)t h(cid:26)p khác nhau gi(cid:25)a nét ngh a MOVE (chuy(cid:28)n (cid:7)(cid:23)ng) v(cid:20)i nét ngh a MANNER (cách th(cid:27)c) . Chính vì v(cid:14)y, mà trong WordNet, (cid:7)ã s% d!ng m(cid:23)t quan h(cid:9) m(cid:20)i, (cid:7)(cid:10)(cid:26)c g(cid:12)i là quan h(cid:9) cách th(cid:27)c (troponymy) (cid:7)(cid:28) di-n t(cid:5) “V1 là V2 v(cid:20)i cách th(cid:27)c (cid:7)"c bi(cid:9)t”, ví d!: “limp” ((cid:7)i kh(cid:14)p khi-ng) có quan h(cid:9) cách th(cid:27)c v(cid:20)i (cid:7)"c bi(cid:9)t v(cid:20)i “walk” ((cid:7)i b(cid:23)) vì “(cid:7)i kh(cid:14)p khi-ng là m(cid:23)t cách th(cid:27)c (cid:7)i b(cid:23) (cid:7)"c bi(cid:9)t”. Cách th(cid:27)c (cid:7)"c bi(cid:9)t ph(cid:5)i (cid:7)(cid:10)(cid:26)c hi(cid:28)u r(cid:23)ng không ch& là cách th(cid:27)c (cid:7)(cid:28) hành (cid:7)(cid:23)ng, mà còn có th(cid:28) là ý (cid:7)(cid:19)nh, (cid:7)(cid:23)ng c(cid:6), môi tr(cid:10)(cid:4)ng, … (cid:7)(cid:28) hành (cid:7)(cid:23)ng, (cid:7)(cid:28) x(cid:5)y ra bi(cid:8)n c(cid:17), (cid:7)(cid:28) hình thành tr(cid:11)ng thái. Trong m(cid:12)i quan h(cid:9) cách th(cid:27)c (cid:7)"c bi(cid:9)t, gi(cid:25)a (cid:7)(cid:23)ng t(cid:30) V1 c$a m(cid:23)t (cid:7)(cid:23)ng t(cid:30) V2 t.ng quát h(cid:6)n, bao gi(cid:4) c/ng có quan h(cid:9) V1 c/ng kéo theo V2. Ví d! nh(cid:10): khi di-n ra hành (cid:7)(cid:23)ng “(cid:7)i kh(cid:14)p khi-ng” thì hi(cid:28)n nhiên lúc (cid:7)ó c/ng ph(cid:5)i di-n (cid:7)ang di-n ra hành (cid:7)(cid:23)ng “(cid:7)i b(cid:23)”. Vì v(cid:14)y, ta có th(cid:28) nói: quan h(cid:1) cách th(cid:12)c (cid:3)(cid:28)c bi(cid:1)t (troponymy) là m(cid:18)t tr(cid:11)(cid:6)ng h(cid:29)p (cid:3)(cid:28)c bi(cid:1)t c(cid:16)a quan h(cid:1) kéo theo (entailment). M(cid:23)t quan h(cid:9) kéo theo mà trong (cid:7)ó 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 151 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh th(cid:4)i gian di-n ra 2 hành (cid:7)(cid:23)ng c$a 2 (cid:7)(cid:23)ng t(cid:30) là trùng nhau. Còn gi(cid:25)a hai (cid:7)(cid:23)ng t(cid:30) “buy/ (cid:1)(cid:31) tài: Tìm ki(cid:8)m ng(cid:25) ngh a (cid:27)ng d!ng trên l nh v(cid:13)c eDoc pay” hay “snore/ sleep” thì ch& là quan h(cid:9) kéo theo mà thôi ch(cid:27) không có quan h(cid:9) cách 0112274 – Ph(cid:11)m Th(cid:19) M(cid:29) Ph(cid:10)(cid:26)ng - 152 - 0112398 – T(cid:30) Th(cid:19) Ng(cid:12)c Thanh th(cid:27)c (cid:7)"c bi(cid:9)t (vì th(cid:4)i gian di-n ra c$a 2 hành (cid:7)(cid:23)ng không trùng nhau).Ch(cid:14)(cid:15)ng 3 : MÔ HÌNH VÀ GI(cid:2)I THU(cid:4)T
Ch(cid:14)(cid:15)ng 4 : CH(cid:6)(cid:3)NG TRÌNH (cid:18)NG D(cid:10)NG
Ch(cid:14)(cid:15)ng 5 : K(cid:17)T LU(cid:4)N
TÀI LI(cid:9)U THAM KH(cid:2)O
PH(cid:10) L(cid:10)C