intTypePromotion=3

Tóm tắt Luận án Tiến sĩ Kỹ thuật: Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản

Chia sẻ: Nam Nam | Ngày: | Loại File: PDF | Số trang:22

0
65
lượt xem
13
download

Tóm tắt Luận án Tiến sĩ Kỹ thuật: Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản

Mô tả tài liệu
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án Tiến sĩ Kỹ thuật: Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản đề xuất một số phương pháp mở rộng truy vấn ban đầu của người dùng. Đây là vấn đề cốt lõi và đồng thời là mục tiêu nghiên cứu của luận án.

Chủ đề:
Lưu

Nội dung Text: Tóm tắt Luận án Tiến sĩ Kỹ thuật: Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản

Đ I H C QU C GIA TP. HCM TRƯ NG Đ I H C BÁCH KHOA TP. H CHÍ MINH<br /> <br /> NGUY N CHÁNH THÀNH<br /> <br /> XÂY D NG MÔ HÌNH M R NG TRUY V N TRONG TRUY XU T THÔNG TIN VĂN B N<br /> Chuyên ngành: Khoa h c Máy tính Mã s : 62.48.01.01<br /> <br /> TÓM T T LU N ÁN TI N SĨ K THU T<br /> <br /> TP. H<br /> <br /> CHÍ MINH – 2010<br /> -1-<br /> <br /> Chương 11.1. Đ ng cơ nghiên c u<br /> <br /> M<br /> <br /> Đ U<br /> <br /> Đ ph c v cho nh ng nhu c u tìm ki m thông tin c a ngư i s d ng, các h th ng truy xu t thông tin (IR) ñã ñư c nghiên c u và phát tri n, trong ñó thành công nh t là m t s ñ ng cơ tìm ki m (search engine) n i ti ng như Google–Yahoo–Alta Vista và Bing trong th i gian g n ñây... Tuy nhiên, thông qua các h th ng ñó, vi c tìm ki m thông tin thư ng không nh n ñư c ñ y ñ k t qu c n thi t như mong mu n cũng như hi u su t c a chúng còn có m t s gi i h n nh t ñ nh. T các phân tích trên, chúng ta nh n th y nguyên nhân chính là các h th ng tìm ki m thông tin chưa ñ m nh nên k t qu ñưa ra không th h tr ngư i dùng như mong ñ i. Truy v n c a ngư i dùng cũng chưa ph n ánh ñ y ñ ng nghĩa ñ h tr cho các quá trình tìm ki m và truy xu t thông tin ñư c t t hơn. Vì v y, vi c b sung ng nghĩa vào truy v n ban ñ u c a ngư i dùng là yêu c u c n thi t. T t m quan tr ng v tính hi u qu c a quá trình truy xu t thông tin ti ng Anh (trên môi trư ng Web), cùng v i hư ng gi i quy t làm sao ñ h th ng IR có th hi u nhi u hơn và thông minh hơn khi x lý truy v n ban ñ u c a ngư i dùng, thì yêu c u v m t h th ng truy xu t thông tin có kh năng t o ra nh ng truy v n ñ ng nghĩa ho c cùng m c tiêu là bài toán quan tr ng. Do ñó, v n ñ m r ng truy v n là bài toán quan tr ng mà lu n án này nghiên c u và ñ xu t phương pháp gi i quy t. 1.2. M c tiêu và ph m vi nghiên c u T ñ ng cơ nghiên c u nêu trên, lu n án ñ xu t m t s phương pháp m r ng truy v n ban ñ u c a ngư i dùng. Đây là v n ñ c t lõi và ñ ng th i là m c tiêu nghiên c u c a lu n án. Như ñ nh hư ng nêu trên, ph m vi nghiên c u c a lu n án ñư c th hi n trong hình 1.1 (trong khung ñư ng g ch ñ t nét).<br /> <br /> -1-<br /> <br /> (A) (B)<br /> <br /> Nh p: Câu truy v n d ng c m danh t B x lý m r ng truy v n trên cơ s k th pv i ontology<br /> <br /> Xu t: Các câu truy v n: - d ng c m danh t , - ñã ñư c m r ng có d ng truy v n hoàn ch nh.<br /> Đ ng cơ tìm ki m thông tin<br /> <br /> K t qu tr v (t p tài li u)<br /> <br /> (C)<br /> <br /> Hình 1.1. M i quan h gi a mô hình c a lu n án và h th ng truy xu t thông tin(c) (A) Mô hình x lý c a lu n án (ph m vi nghiên c u c a lu n án) (B) Đ ng cơ tìm ki m thông tin (thu c h th ng truy xu t thông tin) (C) K t qu tìm ki m thông tin t yêu c u c a các câu truy v n ñã m r ng<br /> <br /> V i mô hình ñư c mô t hình 1.1, trong m c (A), câu truy v n nh p (d ng c m danh t bao g m các thành ph n là tính t hay ch có danh t ñơn) ñư c x lý ñ tr v t p các câu truy v n ñã ñư c m r ng (c m danh t có d ng truy v n hoàn ch nhd). Trong ph m vi lu n án, d a trên gi i pháp rút trích các t ñ c trưng c t lõi cho m t câu ([8] [39]), câu truy v n ban ñ u c a ngư i dùng ñư c ti n x lý ñ lo i b các thành ph n không quan tr ng nh m gi l i nh ng thành ph n chính th a ñi u ki n truy v n hoàn ch nh. Đi u ñó s giúp gi m ñư c ñ ph c t p hay d ng bi u di n ph c h p c a truy v n, ñ ng th i còn giúp ñ m b o tính duy nh t c a t ng thành ph n trong truy v n th a ñi u ki n truy v n hoàn ch nh. M c (B) c a hình trên g m ñ ng cơ tìm ki m thông tin (search engine). Đây là m t b ph n quan tr ng c a h th ng Truy xu t Thông tin. (Information Retrieval). Đ ng cơ tìm ki m thông tin gi i Trong tài li u này, ch s c a các hình, b ng bi u và tài li u tham kh o ñư c gi ñúng theo quy n lu n văn chính, không ñánh s l i.<br /> d c<br /> <br /> Tham kh o ñ nh nghĩa 3.10-Truy v n hoàn ch nh, m c 3.2.6, chương 3. -2-<br /> <br /> quy t ba v n ñ c t lõi là mô hình bi u di n văn b n, thu t toán tìm ki m so trùng t khóa - ñ i sánh ng nghĩa tương ng v i các truy v n và cơ ch l c k t qu truy xu t. Hi n t i trên th gi i có nh ng ñ ng cơ tìm ki m thông tin n i ti ng như Google, Yahoo, Microsoft Bing … Tuy nhiên, nghiên c u c a lu n án ch s d ng nh ng ñ ng cơ này như m t công c h tr vi c tìm ki m thông tin cho truy v n ñã m r ng b ng phương pháp x lý c a lu n án và không ñ t m c tiêu nghiên c u ba v n ñ nêu trên. Vì v y lu n án ñã không trình bày ba v n ñ này.<br /> <br /> Mô hình x lý c a lu n án (trong m c (A)) ch th c hi n vi c m r ng n i dung c a truy v n nh p nên hoàn toàn không làm nh hư ng ñ n ba khía c nh nêu trên trong quá trình v n hành c a ñ ng cơ tìm ki m m c (B). Đi u này còn cho th y ph m vi nghiên c u c a lu n án hư ng ñ n bài toán m r ng truy v n d a trên ontology và hoàn toàn khác bi t so v i ba khía c nh ñã nêu.<br /> T nh ng trình bày trên, các bài toán chính c n gi i quy t trong ph m vi lu n án bao g m: Bài toán 1 - Xây d ng ontology OOMP Nghiên c u và phát tri n c u trúc ontology OOMP (Ontology of Object-Member-Property) cùng cơ ch hu n luy n d li u. T ñó t o d li u ban ñ u d a trên t p tài li u ti ng Anh t ngu n TREC cũng như khai thác d li u t WordNet ñ cung c p ontology OOMP nh m ph c v yêu c u c a bài toán 2. Bài toán 2 - Xây d ng phương pháp hoàn ch nh m r ng truy v n D a trên ontology bài toán 1, nghiên c u xây d ng phương pháp ti p c n m i cho vi c m r ng truy v n nh m t o truy v n k t qu có d ng truy v n hoàn ch nh (bi u di n d ng c m danh t v m t ngôn ng h c) và xây d ng các gi i thu t h tr trong ph m vi bài toán 2.<br /> <br /> Conference on Principles and Practice of Knowledge Discovery in Databases. Dubrovnik, Croatia. 22 September 2003. [35] Sandhya Revuri, Sujatha R Upadhyaya, P Sreenivasa Kumar. Using Domain Ontologies for Efficient Information Retrieval. 13th International Conference on Management of Data (COMAD 2006), IIT, Delhi, India, 2006. [36] Tru H. Cao, Khanh C. Le, Vuong M. Ngo. Exploring Combinations of Ontological Features and Keywords for Text Retrieval. Lecture Notes In Artificial Intelligence; Vol. 5351. The 10th Pacific Rim International Conference on Artificial Intelligence: Trends in Artificial Intelligence, pp.603-613. Hanoi, Vietnam. 2008. ISBN: 978-3-540-891963. [37] Tru H. Cao, Truong D. Cao, Thang L. Tran. A Robust OntologyBased Method for Translating Natural Language Queries to Conceptual Graphs. Lecture Notes In Computer Science; Vol. 5367. The 3rd Asian Semantic Web Conference on The Semantic Web, pp.479 - 492. Bangkok, Thailand. 2008. ISBN: 978-3-540-89703-3. [38] Van Dang, Bao-Quoc Ho, Minh Luong Vi, Bich-Thuy Dong. English-Vietnamese Cross-Language Information Retrieval: An Experimental Study. IEEE International Conference on Research, Innovation and Vision for the Future, RIVF 2008, pp.107-113. July 13-17, 2008. Ho Chi Minh City, Vietnam. ISBN: 978-1-4244-2379-8. Trang web [39] KEA, http://www.kea.org [40] Lucene, http://apache.lucene.org [41] TREC, http://trec.nist.gov/data.html<br /> <br /> -3- 40 -<br /> <br /> - in Computing and Communications Technologies (RIVF'2008), pp.247254. July 13-17, 2008. HCM City, Vietnam. [26] Julio Gonzalo, Felisa Verdejo, Irina Chugur, Juan Cigarran. Indexing with WordNet synsets can improve text retrieval. Proceedings of the COLING/ACL'98 Workshop on Usage of WordNet for NLP, Montreal. [27] Khanh Tran Dang. Ensuring Correctness, Completeness and Freshness for Outsourced Tree-Indexed Data. Information Resources Management Journal (IRMJ), Idea-Group Publisher, ISSN 1040-1628, Vol. 21, Issue 1, pp.59-76. Jan-Mar 2008. [28] Lev Finkelstein, Evgeniy Gabrilovich, Yossi Matias, Ehud Rivlin, Zach Solan, Gadi Wolfman, Eytan Ruppin. Placing search in context: the concept revisited. ACM Transactions on Information Systems, volume 20, issue 1 (January 2002), pp.116–131. 2002. ISSN: 1046-8188. [29] Marti A. Hearst. Automatic acquisition of hyponyms from large text corpora. International Conference On Computational Linguistics. Proceedings of the 14th conference on Computational linguistics, Volume 2, pp.539–545.France. 1992. [30] Phuc Do, Hung Xuan Mai. Using SOM based graph clustering for extracting main ideas from documents. IEEE International Conference on Research, Innovation and Vision for the Future, RIVF 2008, pp. 209-214. July 13-17, 2008. Ho Chi Minh City, Vietnam. ISBN: 978-1-4244-2379-8 [31] Phuc Do, Phung Nguyen. Using Naïve Bayes Model and Natural Language Processing for Classifying Messages on Online Forum. IEEE International Conference on Research, Innovation and Vision for the Future, pp.247-252. March 5-9, 2007. Hanoi, Vietnam. ISBN: 1-42440694-3. [32] Robert Bossy, Alain Kotoujansky, Sophie Aubin, Claire Nedellec. Close Integration of ML and NLP Tools in BioAlvis for Semantic Search in Bacteriology. In Semantic Web Applications and Tools for Life Sciences, SWAT4LS. 2008. [33] Robert Krovetz, W. Bruce Croft. Lexical ambiguity and information retrieval. ACM Transactions on Information Systems (TOIS), Volume 10, Issue 2 (April 1992), pp.115–141. 1992. ISSN: 1046-8188. [34] Roberto Navigli, Paola Velardi. An analysis of ontology-based query expansion strategies. Proceedings of the International Workshop on Adaptive Text Extraction and Mining held in conjunction with the 14th European Conference on Machine Learning and the 7th European - 39 -<br /> <br /> 1.3. Đóng góp chính c a lu n án Các v n ñ nghiên c u c a lu n án ñã có m t s ñóng góp m i v m t khoa h c t phương pháp lu n ñ n gi i pháp th c hi n: * Đóng góp th nh t: ñ xu t phương pháp xác ñ nh các quan h c a các khái ni m bao g m: − Quan h R m xác ñ nh thành ph n ñ c trưng (member) c a ñ i tư ng (object). − − Quan h R p tính ch t ñ c trưng (property) c a thành ph n.<br /> p m Các quan h xác ñ nh tính ch t tr i Rf và Rf liên quan.<br /> <br /> Các phương pháp mà lu n án ñ xu t không nh ng có th áp d ng trong ph m vi lu n án ñ gi i quy t Bài toán 1 và Bài toán 2 nêu trên mà còn có th áp d ng trong m t s lĩnh v c khác ñ t o ontology cho m t mi n khái ni m (trong lĩnh v c x lý ngôn ng t nhiên). Ngoài ra, t góc ñ toán h c, vi c xây d ng các l p ñ ng d ng (liên quan ñ n nhóm các ñ i tư ng, nhóm các thành ph n ñ c trưng và nhóm các tính ch t ñ c trưnge) t các quan h nêu trên s giúp cho vi c phân lo i ñ i tư ng hi u qu hơn. Công trình [ii], [iv], [v] và [ix]f ñã gi i thi u phương pháp xác ñ nh các quan h cùng ñ nh nghĩa c a nh ng khái ni m này. Ph n ñóng góp này s không th c s ñ y ñ n u không có các ñ nh<br /> + OB + OB + OB + OB nghĩa MQE − IR , MQE − IR + P , MQE + IR , MQE + IR + P cùng khái<br /> <br /> ni m truy v n hoàn ch nh, cây phân tích và d ng ñ th ng nghĩa do tác gi ñ xu t, liên quan ñ n vi c mô hình hóa bài toán m r ng truy v n. * Đóng góp th hai: ñ xu t mô hình ontology OOMP cùng các phương pháp hu n luy n d li u: − Phương pháp hu n luy n d a trên kho ng li u s n có (Corpus-Based Knowledge Base Training, CB-KBT).<br /> <br /> e f<br /> <br /> Tham kh o thêm hình 3.3, trang 64 v các l p này. Tham kh o thêm ph n Các công trình khoa h c. -4-<br /> <br />

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản