intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn thạc sĩ: Xây dựng web ngữ nghĩa trợ giúp tra cứu từ Hán Việt

Chia sẻ: Sdfas Vfdtg | Ngày: | Loại File: PDF | Số trang:13

137
lượt xem
13
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Xây dựng web ngữ nghĩa trợ giúp tra cứu từ Hán Việt nhằm tìm hiểu khái niệm tổng quan web ngữ nghĩa, các công cụ, ứng dụng hỗ trợ web ngữ nghĩa.

Chủ đề:
Lưu

Nội dung Text: Luận văn thạc sĩ: Xây dựng web ngữ nghĩa trợ giúp tra cứu từ Hán Việt

  1. 1 2 B GIÁO D C VÀ ĐÀO T O Công trình ñư c hoàn thành t i Đ I H C ĐÀ N NG Đ I H C ĐÀ N NG Ngư i hư ng d n khoa h c: PGS. TS. PHAN HUY KHÁNH DƯƠNG NG C DUY XÂY D NG WEB NG NGHĨA Ph n bi n 1 : PGS.TS. VÕ TRUNG HÙNG TR GIÚP TRA C U T HÁN VI T Ph n bi n 2 : TS. TRƯƠNG CÔNG TU N Chuyên ngành : Khoa h c máy tính Mã s : 60.48.01 Lu n văn ñư c b o v t i H i ñ ng ch m Lu n văn t t nghi p th c sĩ k thu t h p t i Đ i h c Đà N ng vào ngày 15 tháng 12 năm 2012 TÓM T T LU N VĂN TH C SĨ K THU T Có th tìm hi u lu n văn t i: - Trung tâm Thông tin - H c li u, Đ i h c Đà N ng; Đà N ng - Năm 2012 - Trung tâm H c li u, Đ i h c Đà N ng;
  2. 3 4 M Đ U - Các t ñi n hi n nay v n còn thi u nhi u t Hán Vi t gây khó 1. Lý do ch n ñ tài khăn cho ngư i dùng trong vi c tra c u. T Hán Vi t chi m t l r t l n trong kho t v ng ti ng Vi t, Các công c tra c u ch h tr tra nghĩa theo t khóa nh p vào vi c tra c u thông tin, ý nghĩa t Hán Vi t ñư c nhi u s quan tâm như t ñi n Vdict tuy nhiêu chưa có website cho phép tìm ki m theo c a nhà nghiên c u văn hóa, l ch s , ngôn ng cũng như h c sinh, nghĩa c a t khóa, ñ ng th i h tr nhi u tùy ch n. sinh viên. Web ng nghĩa có th giúp chúng ta xây d ng m t website gi i Theo th ng kê m t cách tương ñ i c a GS. Phan Ng c Th ch có quy t nh ng kh năng chưa ñư c th c hi n trên. Vì v y, tôi ñã ch n hơn 7000 t Hán Vi t ñang ñư c s d ng ph bi n hi n nay, chi m ñ tài “Xây d ng Web ng nghĩa tr giúp tra c u t Hán Vi t” cho g n 60% s lư ng t c a ti ng Vi t hi n nay. lu n văn t t nghi p c a mình. V n ñ s d ng sai t Hán Vi t hi n nay trong m t b ph n 2. M c tiêu và nhi m v nghiên c u ngư i dân cũng như sinh viên là r t ñáng lo ng i. • M c tiêu: Trong th i ñ i ngày nay ngôn ng luôn bi n ñ i, lư ng ki n th c Tìm hi u ñư c các khái ni m t ng quan v Web ng nghĩa, các t v các lĩnh v c khoa h c công ngh hay kinh t t các nư c công c , ng d ng h tr xây d ng Web ng nghĩa. Tìm hi u t Hán phương tây nhu nh p v nư c ta ngày càng nhi u, chúng ta l i vay Vi t, v c u trúc và cách nh n bi t các t Hán Vi t. mư n t ti ng Trung Qu c ñ th hi n, v y làm th nào ñ qu n lý Xây d ng ñư c m t Ontology ñ y ñ v t Hán Vi t lư ng t Hán Vi t m i này. Xây d ng ñư c m t website thông minh, tìm ki m và ph bi n Vi c tra c u thông tin t Hán Vi t còn g p nhi u khó khăn, k t thông tin tr giúp tra nghĩa Hán Vi t. qu tìm ki m không chính xác, v n còn nhi u nh p nh ng v nghĩa. • Nhi m v : Hi n nay có nhi u công trình nghiên c u Hán Vi t, xây d ng t Xây d ng Ontology v Hán Vi t. ñi n Hán Vi t: Xây d ng công c chuy n ñ i nhanh gi a văn b n Xây d ng công c tìm ki m nghĩa Hán Vi t. Hán Vi t và văn b n ch , T ñi n Vdict, T ñi n tr c tuy n… nhưng Xây d ng website tr giúp tra nghĩa Hán Vi t ñ y ñ và thông nh ng ng d ng này v n còn m t s h n ch như: minh. - T t c ng d ng trên ñi u chưa có m t kho ng v ng dùng 3. Đ i tư ng và ph m vi nghiên c u chung mang tính ch t m . • Đ i tư ng: - Thi u ñ nh hư ng v c u trúc kho ng v ng, t o khó khăn cho Các v n ñ liên quan ñ n web ng nghĩa. quá trình chia s , tái s d ng hay k t h p các kho ng v ng Hán Vi t X lý ngôn ng t nhiên l i v i nhau. T Hán Vi t • Ph m vi:
  3. 5 6 Nghĩa t Hán Vi t 6. B c c lu n văn Chương trình dư i d ng Web. Lu n văn ñư c trình bày bao g m các n i dung như sau : 4. Phương pháp nghiên c u Chương 1: T ng quan v Web Ng Nghĩa. • Phương pháp lý thuy t: Chương 2: Tìm hi u t Hán Vi t và gi i pháp xây d ng kho t Tìm hi u v Web ng nghĩa. v ng Hán Vi t. Tìm hi u v t Hán Vi t. Chương 3: Trình bày gi i pháp xây d ng kho t Hán Vi t và web Tìm hi u v x lý ngôn ng t nhiên. ng nghĩa. T ng h p t và nghĩa Hán Vi t thu th p ñư c. • Phương pháp th c nghi m CHƯƠNG 1. T NG QUAN V WEB NG NGHĨA Xây d ng m t Ontology bán t ñ ng 1.1. KHÁI NI M WEB NG NGHĨA Xây d ng kho d li u Hán Vi t có c u trúc Theo th ng kê c a t ch c W3C, hi n nay thông tin dư i d ng Xây d ng cơ s d li u c p nh t t ñ ng và b ng tay website chi m g n 70% lư ng thông tin giao ti p trên toàn th gi i và Tri n khai th c t trên Internet. ngày càng không ng ng tăng cao. V i m t lư ng quá l n nh ng 5. Ý nghĩa khoa h c và th c ti n thông tin như v y d n ñ n vi c qu n lý và chia s nh ng thông tin • Ý nghĩa khoa h c: này không còn hi u qu như mong ñ i. - Đóng góp m t công c Search Engine theo công ngh web ng Như v y, v n ñ ñ t ra là nh ng thách th c v vi c làm th nào nghĩa tr giúp ngư i dùng tra c u nghĩa Hán Vi t. ñ web 2.0 có th chuy n hóa nh ng thông tin văn b n thành nh ng - Phương pháp xây d ng Ontology v t Hán Vi t. d li u có ñ nh d ng ñúng v i n i dung, nh m qu n lý và s d ng - ng d ng sematic web v m t tìm ki m. hi u qu hơn. Đó là v n nh ng yêu c u mà chúng ta c n ph i gi i - X lý Ti ng Vi t trong Ontology quy t. • Ý nghĩa th c ti n: Web ng nghĩa ra ñ i ñáp ng nh ng yêu c u tìm ki m và x lý - Đây là lĩnh v c chưa ñư c nghiên c u và ph bi n Vi t Nam, thông tin m t cách hi u qu nh t. ñi u ñó m ra hư ng nghiên c u, ng d ng m i. Web ng nghĩa không ph i là m t ñ nh d ng web m i riêng bi t. - Đ tài ñư c áp d ng Vi t Nam, tr giúp công vi c nghiên c u, Nó là s k t h p gi a web 2.0 hi n t i v i nh ng ñ nh nghĩa d li u h c t p và tra c u c a h c sinh, sinh viên, các nhà nghiên c u ngôn thông minh ñ nâng cao tính giao ti p gi a ngư i và máy. ng cũng như nh ng ngư i quan tâm ñ n t Hán Vi t. Web ng nghĩa ñư c phát tri n b i Tim- Berners Lee, cha ñ c a - H tr tra c u nghĩa t Hán Vi t chính xác hơn. WWW, URIs, HTTP và HTML. - Đem l i ý nghĩa nhân văn.
  4. 7 8 Hi n nay có các công ngh h tr phát tri n Web ng nghĩa ñi n L p Logic: Vi c bi u di n các tài nguyên dư i d ng các b t hình như theo công ngh c a java có jena, theo công ngh Microsoft v ng ontology có m c ñích là ñ máy có th l p lu n ñư c trong khi có Semweb, OwlDotNetApi… cơ s l p lu n ch y u d a vào logic. Vi t Nam, trong kho ng vài năm tr l i ñây ñã có nh ng L p Proof: T ng này ñưa ra các lu t ñ suy lu n. C th t các nghiên c u v v n ñ này nhưng chúng ta ch t p trung xây d ng các thông tin ñã có ta có th suy ra các thông tin m i. ng d ng ho c minh h a cho lý thuy t nghiên c u. L p Trust: Đ ñ m b o tính tin c y c a các ng d ng trên Web Mô hình chung c a Web ng nghĩa: ng nghĩa. 1.2. VAI TRÒ CÁC L P TRONG KI N TRÚC WEB NGH NGHĨA 1.2.1. Vai trò L p ñ nh danh tài nguyên-URI và Unicode URI : URI ñơn gi n ch là m t ñ nh danh Web gi ng như các chu i b t ñ u b ng “http” hay “ftp”. M t d ng th c quen thu c c a URI là URL - Uniform Resource Hình 1.1 Mô hình các t ng c a Web ng nghĩa Locator, URL là m t ñ a ch cho phép chúng ta thăm m t trang Web. Mô hình trên có t t c 7 l p, trong ñó có m t s t ng còn ñang URI là n n t ng c a Web ng nghĩa. Trong khi m i thành ph n trong quá trình hoàn thi n. N i dung các t ng như sau: khác c a Web g n như có th ñư c thay th nhưng URI thì không. L p URI, Unicode : ñây là t ng cơ b n ñ nh nghĩa ñ nh d ng x Unicode: là chu n bi u di n ký t nh m m c ñích h tr ña ngôn lý nh m chu n hoá d li u x lý. ng . Giúp các trang web ng nghĩa th hi n ñư c trên nhi u ngôn L p XML : là ngôn ng ñánh d u m r ng, dùng ñ lưu tr d ng khác nhau. li u, cho phép ngư i dùng có th tùy ý thêm vào nh ng th theo yêu 1.2.2. Vai trò L p XML và XML Schema c u c a mình. XML – (eXtensible Markup Language)là ngôn ng ñánh d u m L p RDF : khung mô t tài nguyên RDF - ñư c phát tri n d a r ng, cho phép ngư i dùng có th tùy ý thêm vào nh ng th theo yêu trên k thu t lưu tr d li u c a XML và ki u c u trúc d li u thông c u c a mình. XML ñư c s d ng trong web ng nghĩa v i vai trò minh ñ t o và thay ñ i s d ng các chú thích trong Web ng nghĩa. ñ nh nghĩa cú pháp và c u trúc c a m t tài li u web ng nghĩa. L p Ontology : Ontology là c u trúc d li u bi u di n ng nghĩa 1.2.3. Vai trò L p RDF - RDF Schema nâng cao. Đư c phát tri n trên n n t ng RDF có phát tri n thêm RDF là n n t ng c a Web ng nghĩa và x lý metadata, ñư c nh ng ñ nh nghĩa v t v ng ng nghĩa b sung nh ng ràng bu c d ñ nh nghĩa b i t ch c W3C. RDF cho phép trao ñ i thông tin gi a li u. các ng d ng trên Web mà máy có th hi u ñư c.
  5. 9 10 C u trúc căn b n c a m t RDF statement g m 3 thành ph n: Đây là ph n m m mi n phí dùng ñ t o ra các mô hình và các ng d ng b ng cách s d ng các ontology. Protégé ñư c phát tri n b i trư ng Đ i h c Stanford và Mark Musen, protégé có hai phiên Tài nguyên (Subject) - là cái mà chúng ta ñ c p, thư ng b n OWL và API. ñư c nh n di n b i m t URI. Protégé-OWL ñư c phát tri n d a trên hai yêu c u chính : ñ nh V ng (Predicate), có ki u metadata (ví d như tiêu ñ , tác nghĩa các ñ i tư ng và quan h t n t i gi a chúng. gi ,...), cũng có th ñư c xác ñ nh b i m t URI. Các ñ i tư ng xây d ng chính c a Protégé là: B ng (Object) ví d : m t ngư i có tên Eric Miller. T p h p Classes – t ch c các quan h tham chi u và các ki u th c thi các RDF statement ñư c lưu dư i d ng cú pháp c a XML, Axioms – mô hình câu l nh ñúng còn ñư c g i là RDF/XML. Instances – các th hi n, các thành ph n c a ñ i tư ng 1.2.4. Vai trò L p Ontology Domain – gi i h n c a ontology Đ nh nghĩa : Ontology là m t t p các khái ni m và quan h gi a Vocabulary – các l p và khai báo các khái ni m ñư c ñ nh nghĩa cho m t lĩnh v c nào ñó nh m vào 1.3.2. Protégé s d ng giao di n ñ h a vi c bi u di n và trao ñ i thông tin. Ngay t phiên b n Protégé API, thì ph n m m ñã không ch Đây cũng là m t hư ng ti p c n ñ xây d ng Web ng nghĩa. T cho phép t o mô hình b ng cách th mà nó còn cho phép ngư i s ch c W3C cũng ñã ñ ra m t ngôn ng ontology trên Web (OWL) ñ d ng giao di n ñ h a ñ phát tri n. xây d ng Sematic Web d a trên n n t ng c a ontology. M t s lý do c n phát tri n m t Ontology : Đ chia s nh ng hi u bi t chung v c u trúc thông tin gi a con ngư i và các software agent. Đ cho phép tái s d ng lĩnh v c tri th c (domain knowledge). Hình 1.2 Giao ti p b ng ñ h a c a Protégé Đ làm cho các gi thuy t v lĩnh v c ñư c tư ng minh. 1.3.3. Protégé phát tri n ñ tích h p các công c Đ tách bi t tri th c lĩnh v c (domain knowledge) ra kh i tri Protégé cung c p m t s ñi m m r ng nơi các nhà phát tri n có th c thao tác(operational knowledge ). th ch ñ ng thêm các thành ph n mà ta thư ng g i là plug-ins. 1.3. CÔNG C XÂY D NG ONTOLOGY PROTÉGÉ 1.3.1. Đ c ñi m c a Protégé
  6. 11 12 ra. Tuy nhiên vi c truy c p d li u không thông qua câu l nh truy v n nên vi c l p trình v i thư vi n này chưa thu n l i v th i gian x lý. CHƯƠNG 2. TÌM HI U T HÁN VI T VÀ GI I PHÁP XÂY D NG KHO T V NG HÁN VI T 2.1. TÌM HI U V T HÁN VI T Hình 1.3 Protégé tích h p công c Jabalaya 2.1.1. Ngu n g c t Hán Vi t 1.4. THƯ VI N PHÁT TRI N NG D NG WEB NG NGHĨA Ch Hán hay còn ñư c g i là ch Nho ñư c ngư i Hán sáng t o 1.4.1. SemWeb cách ñây kho n hơn 3000 năm. SemWeb l n ñ u tiên ñư c phát hành vào tháng sáu năm 2005 và nư c ta, trư c khi s d ng văn t Hán cách ñây 3000 năm, ñã ñư c th nghi m g n ñây hơn v i nh ng b lưu tr hơn m t t b ngư i Vi t ñã có ngôn ng riêng c a mình, ñó là ngôn ng c Vi t ba. Các tính năng c t lõi như ñ c/ghi d li u XML v i b ba RDF, Mư ng. liên t c lưu tr d li u v i n n t ng SQL và các truy v n SPARQL Vào th k th nh t trư c Công Nguyên cùng v i vi c phong cơ b n ñã ñư c ki m nghi m nhi u l n. Thư vi n không có công c ki n phương B c xâm lư c Vi t Nam, cũng do ñ c ñi m ñ a lý, có s ñ c bi t ñ i v i OWL schema và nó ho t ñ ng m c b ba c a RDF. giao lưu gi a cư nhân hai thì ngôn ng văn t Hán cũng ñư c ñưa 1.4.2. OwlDotNetApi vào Vi t Nam. OwlDotNetApi là m t OWL API v i b phân tích cú pháp vi t Ngư i Vi t dùng các t ng g c Hán ghép v i nhau theo cách b ng C# theo công ngh .NET d a trên phân tích cú pháp RDF Drive. riêng c a mình ñ t o ra t Hán Vi t. Phiên b n V sau, ngư i Vi t dùng văn t này ñ ghi l i ti ng nói c a mình Ch c năng (t c là ch nôm). M c tiêu c a OwlDotNetApi là ñ c/ghi d li u c a XML d a 2.1.2. Các ñ c ñi m c a t Hán Vi t trên ñ th v i các c nh tương ng v i thu c tính liên k t và các ñ nh Theo các nhà nghiên c u ngôn ng thì ư c ch ng có kho n 60% tương ng v i các nút hay còn g i là các l p. s t Hán Vi t trong ngôn ng hi n nay c a chúng ta. Vi c s d ng Hán Vi t r t khó khăn. Có nhi u s hi u sai t Hán Vi c d n ñ n cách dùng t Hán Vi t sai l ch trong văn b n và l i nói. V năng l c ho t ñ ng, kh năng nh p h c a các t g c Hán Hình 1.4 Mô hình quan h gi a các nút và các c nh trong ti ng Vi t, r t không ñ ng ñ u. Xu t phát t vi c ñ th hoá n i dung c a d li u nên Đôi khi trong nh ng t h p vay mư n nguyên kh i t g c Hán, OwlDotNetApi ñáp ng ñư c h u h t t t c các chu n mà W3C ñưa nói m i lưu gi ý nghĩa .
  7. 13 14 V i cách nh p l t , các t ñơn ti t Hán Vi t xu t hi n v i vai trò - T ghép Hán Vi t ñ ng l p l p ñ y, b sung nh ng khái ni m m i cho các trư ng t v ng. - T ghép chính ph Hán Vi t S xu t hi n theo trư ng t v ng c a các t Hán- Vi t m i trong 2.1.4. Các lu t nh n bi t t Hán Vi t Ti ng Vi t m t m t th hi n nh hư ng c a văn hóa văn minh Trung Chúng ta s s d ng các m o tên ñ nh n bi t t Hán Vi t ñ có Hoa ñ i v i châu Á nói chung và Vi t Nam nói riêng. ñư c kho t Hán Vi t chính xác trong giai ño n xây d ng kho t thô 2.1.3. C u trúc t Hán Vi t Hán Vi t. a. T ñơn Hán Vi t 2.2. HI N TR NG VÀ NHU C U TRA C U T HÁN VI T T ñơn Hán Vi t nhìn theo tiêu chí ng âm HI N NAY - T ñơn thu n âm Hán Vi t 2.2.1. Nhu c u tra c u t Hán Vi t - T ñơn bi n âm Hán Vi t 2.2.2. Hi n tr ng tra c u t Hán Vi t T ñơn Hán Vi t nhìn t tiêu chí ng nghĩa Hi n nay ñ i v i h c sinh, sinh viên v n ñ s d ng ñúng ngôn Nghĩa c a t ñơn Hán Vi t ñây có th phân ra hai lo i : ng ti ng Vi t cũng là m t v n ñ h t s c khó khăn. Có th k ra ñây - T ñơn Hán Vi t theo nghĩa m t s l i thư ng g p như : - T ñơn Hán Vi t bi n - Dùng t sai phong cách T ñơn Hán Vi t nhìn theo tiêu chí ng pháp - Vi t sai chính t - T ñơn Hán Vi t là danh t - S d ng t không ñúng - T ñơn Hán Vi t là ñ ng t Nh ng trư ng h p trên ñây xu t phát t m t th c tr ng là h c - T ñơn Hán Vi t là tính t sinh không hi u ñư c nghĩa cũng như ph m vi s d ng c a t Hán b. T ghép Hán Vi t Vi t. T ghép Hán Vi t là nh ng t do hai y u t Hán Vi t có nghĩa Các t ñi n hi n nay v n còn thi t nhi u t gây khó khăn cho ghép l i v i nhau mà thành. ngư i dùng. T ghép Hán Vi t nhìn theo tiêu chí ng âm Trong ti ng Vi t, t Hán Vi t chi m s lư ng tương ñ i cao - - T ghép thu n âm Hán Vi t trên 60%, gây khó khăn cho ngư i ti p nh n và s d ng. - T ghép bi n âm Hán Vi t Trên th c t , trư c nay ñã có nhi u công trình nghiên c u, T ghép Hán Vi t nhìn t tiêu chí ng nghĩa chuyên lu n bàn nhi u khía c nh khác nhau và h tr kh năng s - T ghép nguyên nghĩa Hán Vi t d ng t Hán Vi t cho các ñ i tư ng ngư i dùng như: “M o gi i - T ghép Hán Vi t bi n nghĩa nghĩa t Hán Vi t và ch a l i chính t ” c a tác gi Phan Ng c, t T ghép Hán Vi t nhìn t tiêu chí ng pháp ñi n Hán Vi t.
  8. 15 16 2.2.3. Tìm hi u t ñi n t p d li u s d ng là b ng âm ti t ti ng Vi t và t ñi n t v ng ti ng T ñi n là cách tra c u t p h p các ñơn v ngôn ng (thư ng là Vi t. ñơn v t v ng) và s p x p theo m t t t t nh t ñ nh, cung c p m t s 2.3.4. Xây d ng kho t Hán Vi t ki n th c c n thi t ñ i v i t ng ñơn v . a. Quy mô Các lo i t ñi n hi n nay Xây d ng c u trúc kho T ñi n gi y Thu th p ngu n d li u T ñi n ñi n t Gi i thích t v ng: chúng ta s dùng xây d ng th công và t T ñi n máy tính ñ ng. 2.3. GI I PHÁP XÂY D NG KHO T HÁN VI T b. Ch n l c d li u ñưa vào kho Khi xây d ng kho t ph c v cho quá trình làm ontology chúng Là d li u ñưa vào kho ng v ng, các ngu n d li u : ta g p ph i v n ñ là d li u t ñâu ra và t p h p chúng như th nào? Kho t ñơn và kho t . Làm th nào ñ có ñư c d li u chính xác nh t là v n ñ r t ñư c tôi Kho d li u trung gian . quan tâm. Trong ph m vi lu n văn tôi s s d ng m t s nghiên c u Kho d li u thô . c a các tác gi khác v i k t qu th c nghi m ñã ñư c công nh n c. Đ xu t c u trúc lưu tr kho trong th c t . Ngu n d li u ñ xây d ng kho t s ñư c l y ch y u Chúng ta t ch c kho d li u theo c u trúc Alphabet t c là ta t trong các t ñi n Hán Vi t, t ñi n Hán Vi t online … ch c các m c t theo th t ABC và lưu theo ki u file XML. 2.3.1. V n ñ x lý ngôn ng t nhiên 2.4. GI I PHÁP XÂY D NG ONTOLOGY HÁN VI T 2.3.2. Sơ lư c bài toán tách t Mô hình ontology tôi xây d ng s d a theo mô hình ontology Sau ñây tôi xin gi i thi u m t s v n ñ liên quan ñ n bài toán hi n có trong Wordnet. tách t trong ti ng Vi t ñ làm giàu ontology t ngu n d li u l y t 2.4.1. Gi i thi u Wordnet internet. Năm 1980, Miller và c ng s t i trư ng Đ i h c Princeton (M ) Các hư ng ti p c n cho bài toán tách t : ñã xây d ng WordNet, là m t cơ s d li u tri th c ng nghĩa t - Hư ng ti p c n d a trên t v ng b ng ti ng Anh. - Hư ng ti p c n d a trên ký t a. Mô hình Wordnet 2.3.3. Công c vnTokenize WordNet là m t lo i t ñi n tương t t ñi n ñ ng nghĩa. vnTokenizer là công c tách t ti ng Vi t ñư c nhóm tác gi WordNet phân chia t v ng thành 5 lo i : noun, verb, adjective, Nguy n Th Minh Huy n, Vũ Xuân Lương và Lê H ng Phương phát adverb và funtion words, nhưng th c t nó ch ch a noun, verb, tri n d a trên phương pháp so kh p t i ña (Maximum Matching) v i adjective, adverb.
  9. 17 18 b. Các quan h trong WordNet Đ i tư ng ki u t (kieu_tu) : Trong class này s có thu c tính Quan h ñ ng nghĩa (synonymy) kieu_tu ñ ñ nh nghĩa ki u t . Quan h trái nghĩa (antonymy) Đ i tư ng các dùng (cach_dung) Quan h h danh (thu c c p hyponym) và quan h thư ng Doi_tuong : th hi n ñ i tư ng c a t Hán Vi t. danh (bao hàm, hypernym) Hoan_canh : th hi n hoàn c nh s d ng. Quan h b ph n (meronymy/ holonymy) Ngu_phap : th hi n v trí ñ t t . Quan h kéo theo (entailment) Quan h cách th c ñ c bi t (troponymy) CHƯƠNG 3. PHÁT TRI N NG D NG 2.4.2. Thi t k mô hình d li u Ontology 3.1. PHÂN TÍCH BÀI TOÁN Trong ontology s xây d ng g m 5 class l n là : 3.1.1. Xác ñ nh ñ i tư ng s d ng - Han_viet Trong gi i h n lu n văn tôi s nghiên c u và phát tri n ng d ng - Nghia_cua_tu : Đây là class ch a các class con n_nghia, v_nghia, ph c v cho ñ i tư ng là h c sinh, sinh viên. adj_nghia. 3.1.2. Yêu c u bài toán - Tap_dong_nghia : ch a các class con n_dongnghia, v_dongnghia, Bài toán ñ t ra yêu c u xây d ng m t trang web giúp ngư i dùng adj_dongnghia. tra c u và s d ng t Hán Vi t v i nh ng yêu c u ch c năng như : - Kieu_tu_hv : là class dùng ñ ch ki u t Hán Vi t. Thu th p t Hán Vi t t Internet, sách báo, t ñi n t o kho t - Cach_dung : là class dùng ñ th hi n các s d ng t Hán Vi t. Hán Vi t d a nghĩa. Thu c tính : Qu n lý các t m i tìm ñư c, ch nh s a các thông tin. Đ i tư ng t Hán Vi t (han_viet): Trong class này ta s ñ nh Cho phép ngư i dùng tìm ki m, tra c u t Hán Vi t. nghĩa thu c tính cơ b n c a t ñó là tên, id t , ki u t và có m t Website lưu tr ñ y ñ thông tin v t Hán Vi t . property th hi n nghĩa c a t (co_nghia) . 3.1.3. Phân tích h th ng Đ i tư ng nghĩa c a t (nghia_cua_tu) : Các l p con là n_nghia, a. Hư ng ti p c n v_nghia, adj_nghia g m có: id_nghia , noi_dung_nghia , Chương trình ñư c xây d ng là m t Semantic Web. Công ngh co_tap_dong_nghia, trai_nghia, co_tu_hanviet. Web Semantic s d ng mô hình d li u thông minh. Đ i tư ng t p ñ ng nghĩa (tap_dong_nghia) : các l p tương ng Chương trình h tr tra c u t Hán Vi t s ñư c xây d ng d a là n_dongnghia, v_dongnghia, adj_dongnghia g m : id_dongnghia, trên ñ i tư ng chính là t Hán Vi t, c th ñây chúng ta có t ñơn mo_ta, vi_du. và t ghép.
  10. 19 20 V i công vi c xác ñ nh là phát tri n m t trang web semantic ta D li u liên quan ñ n t c n tìm ki m g m có: nghĩa c a t , lo i c n xây d ng ng d ng g m 2 ph n chính : t , t ñ ng nghĩa, t ph n nghĩa. Ontology : Trong ph n này chúng ta s ti n hành xây d ng các l p, Trong c u trúc ñư c xây d ng chúng ta s qu n lý các t , nghĩa các thu c tính và t o ra các m i quan h ñ ng c p, phân c p theo c a t , các t p ñ ng nghĩa và các thu c tính ñi kèm c a t . W3C và t t c các ñ nh nghĩa m i ñã xác ñ nh cho ontology. Trình duy t web : Ph n trình duy t ta không xây d ng m i hoàn toàn ñáp ng ñáp ng ñ y ñ các yêu c u truy c p d li u b t kỳ ontology nào mà ta xây d ng trình duy t tương t các ng d ng web hi n th n i dung cơ s d li u ñã xây d ng. b. Mô hình hóa Đây là bài toán d a trên cơ s d li u ñư c lưu tr và ñưa thông tin Hình 3.2 T trong ontology Hán Vi t m t cách thông minh v phía ngư i dùng. Trư c khi có thi t k chi ti t ta c n phân chia chương trình làm 5 h n m c chính bao g m các ph n ta có th tóm l i các m c c a mô hình b ng hình v bên dư i. Hình 3.3 M i quan h trong ontology Hán Vi t 3.2.1. Công c xây d ng ontology Ontology Hán Vi t ñư c xây d ng dùng công c so n th o Protégé. 3.2.2. Các bư c xây d ng ontology D a trên các bư c xây d ng ontology c a Noy và McGuinness ta Hình 3.1 Mô hình t ng quát h th ng. có s tinh g n công vi c trong m i bư c như sau: 3.2. XÂY D NG ONTOLOGY Bư c 1. Xác ñ nh m c ñích phát tri n ontology. Đ i v i v n ñ tìm ki m d li u ng nghĩa trong bài toán này là Chúng ta ñã th y ñư c các kho t Hán Vi t hi n nay v n còn xác ñ nh các thông tin mà ta c n tìm ki m, ñây các thông tin c n nhi u h n ch v tính m cũng như c u trúc ñã ñư c nêu ra chương tìm ki m cho m t t Hán Vi t là ng nghĩa, lo i t c a t ñó. Vì v y 2. ý nghĩa và các d li u liên quan ph i ñư c lưu tr trong l p và ñây là Xây d ng ontology Hán Vi t giúp mô t m i quan h gi a các t nh ng l p quan tr ng c a bài toán c n xây d ng. ñư c tư ng minh và d truy v n hơn.
  11. 21 22 Ngư i dùng có th s d ng hay k ontology Hán Vi t ñ phát tri n các ch c năng như ngư i dùng mong mu n. Bư c 2. N m b t k thu t xây d ng ontology : Bư c này g m ba giai ño n như sau : - Xác ñ nh ph m vi c a ontology : g m ki u t là t ñơn và t ghép Hán Vi t, các lo i t chính g m có danh t , ñ ng t và tính t . Các m i quan h quan trong g m: quan h v nghĩa là m i quan h Hình 3.5 Class trong ontology ñ ng nghĩa ph n nghĩa, phương pháp s d ng h p lý t Hán Vi t. T p ñ ng nghĩa : Nó - Ch n phương th c n m b t ontology : phân tích hư ng ñ i là m t t p h p các t ñ ng nghĩa, các l p con m c th p hơn : Tính tư ng t p trung vào các phương th c trong l p. t ñ ng nghĩa, ñ ng t ñ ng, danh t ñ ng nghĩa. - Đ nh nghĩa các khái ni m trong ontology: Chúng ta ti n hành Nghĩa c a t Hán Vi t : ñ nh nghĩa các khái niêm cho ontology g m : T Hán Vi t, nghĩa c a g m các l p con như sau : nghĩa c a tính t , nghĩa c a danh t , nghĩa t , t p ñ ng, ki u t và s d ng. c a ñ ng . Bư c 3. Xem xét s d ng l i các ontology ñang t n t i. T Hán Vi t : l p ch a các t Hi n nay có ontology Wordnet có c u trúc khá phù h p v i yêu Hán Vi t. c u ñ t ra c a bài toán là xây d ng m t ontology Hán Vi t. Ki u t : : l p ch a các ki u Bư c 4. Mã hoá ontology Hán Vi t. Lu n văn s d ng công c Protégé ñ mã hoá ontology. Vi c mã Cách dùng t : : l p ch a hóa liên quan ñ n bi u di n ontology trong m t ngôn ng hình th c. các ki u Hán Vi t. L p trong ontology mô t các khái ni m cùng các thu c tính và quan • Mô t thu c tính: Các thu c tính th hi n m i quan h gi a h . Mã hóa ontology là ti n trình l p, g m các bư c con sau: các ñ i tư ng d li u individual) v i nhau ho c quan h v i • Đ nh nghĩa l p : Đ ti n vi c phân bi t các l p "thông tin d li u Ngôn ng : liên quan" v i các l p con c a các l p này, ta g i các l p Dư i ñây là m t s thu c tính d li u cơ b n có trong chương trình: ngoài cùng là siêu l p. Các l p con bên trong ta v n g i bình Thu c tính d li u: Thu c tính id_hv, id_dong_nghia, id_nghia, thư ng là l p. Như v y quan h gi a cá t và các l p bên ten, kieu_tu, mo_ta, noi_dung_nghia, doi_tuong. trong. Thu c tính quan h : Thu c tính co_nghia, co_tu_hanviet, co_Tap_dong_nghia, trai_nghia, co_kieu, co_cach_dung .
  12. 23 24 Thu t toán này dùng ñ ñi n ñ y các quan h c a ng d ng và t o cho ng d ng có thông tin hai chi u. Đ i v i v n ñ này lu n văn s xây d ng thu t toán như sau : M t p tin ch a ontology Đ c t t c các Properties có khai báo ñưa vào danh sách ñ i chi u. Hình 3.6 Thu c tính datatype trong ontology Duy t qua t t c các ñ nh c a ontology Bư c 5. C i ti n ontology N u m t ñ nh có ch a quan h c n ñi n ñ y theo Bao g m hai giai ño n : danh sách ñ i chi u trên (B1) C i ti n mã hóa bên trong (intra-coding) Đi n thông tin quan h ngư c l i C i ti n mã hóa bên ngoài (extra-coding) Quay l i xét cho ñ nh v a ñi n như B1 Bư c 6 : Ki m th Ngư c l i b qua bư c này Phát hi n như c ñi m c a ontology. Bư c này ñư c th c hi n Đóng truy c p vào ontology trong t t c các giai ño n phát tri n. Ngay khi t o cơ s tri th c, c n Duy t ng nghĩa t ontology ti n hành ki m th ñ phát hi n l i trong ontology và công c thu 3.3.2. Xây d ng giao di n nh n tri th c, và s a ñ i ontology h p lý. Website ñư c phát tri n trên n n.Net, v i ngôn ng C# và Bư c 7 : Duy trì ASP.Net. Công c dùng ñ tri n khai là Visual Studio 2008 s d ng Th c hi n các vi c hi u ch nh, thích ng ho c hoàn t t ontology thư vi n OwlDotNetApi. Hán Vi t. Chương trình có m t s ch c năng cơ b n như sau : 3.2.3. K t qu Ontology a. Trang chính c a h th ng : Đây là trang ch a menu v i ch c Sau khi ñã ñĩnh nghĩa các class cũng như các ñ i tư ng trong lu n năng là th c hi n ñ c d li u t n i dung ontology, l y các siêu l p . văn thông quá công c protégé ta s save l i thành m t file có ñ nh b. Các thu t toán b tr cho vi c xây d ng các thu t toán tìm ki m d ng theo ñuôi chu n chung là “.owl”. c. Trang th c hi n tìm ki m ñơn gi n 3.3. XÂY D NG WEBSITE TRA T HÁN VI T Ch c năng tìm ki m ñơn gi n d a theo t khóa nh p vào bàn phím ñ tìm 3.3.1. Gi i pháp xây d ng ki m nghĩa c a t Hán Vi t c n tra. Vi c tìm ki m s d a trên s ñ i chi u, Khai thác thư vi n mã ngu n m OwlDotNetApi. so kh p thông tin t các t khoá nh p vào c a ngư i dùng. Truy xu t d li u ontology sang giao di n web Hình 3.11 khung tìm ki m ñơn gi n
  13. 25 26 d. Trang th c hi n tìm ki m nâng cao K T LU N 1. K t qu ñ t ñư c V m t lý thuy t N m ñư c các ki n th c v web ng nghĩa, cách xây d ng ontology và ng d ng web ng nghĩa . Tìm hi u ñư c c u trúc nghĩa t Hán Vi t t ñó áp d ng xây d ng ñư c kho t Hán Vi t cơ b n và ontology Hán Vi t. Hình 3.12 Hình nh tìm ki m nâng cao V m t th c ti n Khi ngư i dùng s d ng ch c năng tìm ki m ñơn gi n thì k t qu Xây d ng ñư c kho t Hán Vi t. tr v thư ng nhi u vì ngư i dùng thư ng nh p vào t khóa ñơn gi n Xây d ng ontology Hán Vi t và web ng nghĩa h tr tra là t mu n tìm. Vì v y ñ k t qu chính xác hơn thì vi c cung c p nghĩa t Hán Vi t. thông tin ng nghĩa cho quá trình tìm ki m là ñi u r t ñư c quan tâm. Góp ph n giúp cho m i ngư i có m t công c tra c u nghĩa e. Trang chi ti t c a t Hán Vi t ph c v nhu c u h c t p nghiên c u c a h c 3.3.3. Th ng kê và ñánh giá k t qu sinh – sinh viên, nh ng ngư i có nhu c u tìm hi u, tra nghĩa Trong quá trình nghiên c u xây d ng web ng nghĩa tr giúp tra c u t Hán Vi t. t Hán Vi t cho ñ n nay ñã ñ t ñư c nh ng k t qu sau : 2. Hư ng phát tri n c a ñ tài Xây d ng ng d ng web ng nghĩa h tr tra c u t Hán Trong lu n văn tôi ñã tái s d ng l i m t ph n c u trúc Vi t v i nh ng ch c năng tra c u nghĩa ñơn gi n và nâng ontology Wordnet ñ xây d ng ontology Hán Vi t và v n cao. chưa khai thác h t th m nh c a b ontology này. Đã t o ñư c ontology Hán Vi t kho ng 500 t ñơn và t V i v n ki n th c v t Hán Vi t khá h n ch , tôi hy v ng ghép Hán Vi t. Trong th i gian ñ n ontology Hán Vi t s trong tương l i s có s góp m t c a các chuyên gia ngôn ti p t c ñư c c p nh t d li u. ng ñ d li u ñư c chính xác hơn. Phát tri n bài toán có th thêm các ký t ti ng trung vào ontology giúp hoàn thi n hơn ch c năng tra h tr ti ng trung.
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
5=>2