Bài giảng Một số hướng nghiên cứu và ứng dụng - Lê Thanh Hương
lượt xem 4
download
Bài giảng "Một số hướng nghiên cứu và ứng dụng" do Lê Thanh Hương cung cấp cho người đọc các nội dung: Web ngữ nghĩa, những gì có thể làm được, các loại ứng dụng, what needs to be done, aggregation Inference example, application patterns,... Mời các bạn cùng tham khảo.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Một số hướng nghiên cứu và ứng dụng - Lê Thanh Hương
- Web ngữ nghĩa MỘT SỐ HƯỚNG NGHIÊN CỨU VÀ Mục tiêu: phát triển ỨNG DỤNG Ụ các chuẩn chung và công ô nghệệ cho phép é máy tính có thể hiểu được nhiều hơn thông tin trên Web, sao cho chúng có thể hỗ trợ tốt hơn việc khám phá thông tin, tích hợp dữ liệu, và tự động hóa các công việc. Hanoi University of Technology – Master 2006 2 Các loại ứng dụng Những gì có thể làm được Các dạng dữ liệu bán cấu trúc Nếu dữ liệu đầu vào ở dạng RDF, các hàm sau Các ứngg dụng ụ g mở: thêm các chức năng g mới với có thể thực hiện các loại dữ liệu cũ và mới Tích hợp nhiều nguồn dữ liệu Suy diễn để sinh ra thông tin mới Ví dụ: Truy vấn để sinh ra kết quả mong muốn Quản lý thông tin cá nhân (Chandler) Mạng xã hội (FOAF) Các hàm tổng quát Tổ chức thông tin (RSS,PRISM) RDF Dữ liệu thư viện/bảo tàng (Dublin Core, Core Aggregation, A ti Results Harmony) Inference, Query Input data RDF 3 4 1
- Aggregation + Inference = New Knowledge Aggregation + Inference: Example Building on the success of XML Consider three datasets, describing: Common syntactic framework for data vehicles’ passenger capacities representation, supporting use of common tools the capacity of some roads But, lacking semantics, provides no basis for the effect of policy options on vehicle usage automatic aggregation of diverse sources Aggregation and inference may yield: RDF: a semantic framework passenger transportation capacity of a given Automatic aggregation (graph merging) road in response to various policy options gg g Inference from aggregated data sources using existing open software building blocks generates new knowledge Domain knowledge from ontologies and inference rules 5 6 What needs to be done? Benefits Information design Greater use of off-the-shelf software g Data-use strategies and inference rules reduced development cost and risk Mechanisms for acquisition of existing data Re-use of information designs sources reduced application design costs; better Mechanisms for presentation or utilization of information sharing between applications the resulting information Flexibility systems can adapt as requirements evolve Open access to information making possible new applications 7 8 2
- Lots of Tools (not an Recommendation: Low risk approach exhaustive list!) Categories: Some names: Focus on information requirements Triple Stores Jena, AllegroGraph, Mulgara, this is unlikely to be wasted effort g Inference engines Sesame, flickurl, … TopBraid Suite, Virtuoso Start with a limited goal, progress by steps Converters environment, Falcon, Drupal 7, adapting to evolving requirements is an Search engines Redland, Pellet, … advantage of SW technology; if it can do this Middleware Disco, Oracle 11g, RacerPro, for large projects it certainly must be able to do CMS IODT, Ontobroker, OWLIM, Talis so for early experimental projects Semantic Web browsers Platform, … Use existing open building blocks Development RDF Gateway, RDFLib, Open environments i t Anzo, DartGrid, Zitgist, Ontotext, Semantic Wikis Protégé, … … Thetus publisher, SemanticWorks, SWI-Prolog, RDFStore… … 9 10 Application patterns To “seed” a Web of Data... It is fairly difficult to “categorize” applications Data has to be published, ready for integration pp Some of the application patterns: p pp g And this is now happening! data integration Linked Open Data project intelligent (specialized) Web sites (portals) with eGovernmental initiatives in, eg, UK, USA, improved local search France,... content and knowledge organization Various institutions publishing their data knowledge representation, decision support data registries, repositories collaboration tools (eg, social network applications) 11 12 3
- Linking Open Data Project Goal: “expose” open datasets in RDF Set RDF links among g the data items from different datasets Set up SPARQL Endpoints Billions triples, millions of “links” 13 14 Extracting structured data from Example data source: DBpedia Wikipedia DBpedia is a community effort to extract structured (“infobox”) information from Wikipedia provide a SPARQL endpoint to the dataset interlink the DBpedia dataset with other datasets on the Web 15 16 4
- Automatic links among open Linking Open Data Project datasets (cont) Processors can switch automatically from one to the other… 17 18 Linking Open Data Project (cont) Linked Open eGov Data 19 20 5
- Publication of data (with RDFa): London Gazette Publication of data (with RDFa): London Gazette 21 22 Publication of data (with RDFa & SKOS): Library of Publication of data (with RDFa & SKOS): Library of Congress Subject Headings Congress Subject Headings 23 24 6
- Publication of data (with RDFa & SKOS):Economics Publication of data (with RDFa & SKOS):Economics Thesaurus Thesaurus 25 26 Using the LOD cloud on an iPhone Using the LOD cloud on an iPhone 27 28 7
- Using the LOD cloud on an iPhone You publish the raw data, W3C use it… Yahoo’s SearchMonkey Search based results may be customized via small applications Metadata embedded in pages (in RDFa, eRDF, etc) are reused Publishers can export extra (RDF) data via other formats 29 30 Google’s rich sniplet Find experts at NASA Expertise locater for nearly 70,000 NASA civil servants Embedded metadata (in microformat or RDFa) over 6 or 7 geographically distributed databases, data is used to improve search result page sources,, and web services… at the moment only a few vocabularies are recognized, but that will evolve over the years 31 32 8
- Public health surveillance A frequent paradigm: (Sapphire) intelligent portals Integrated biosurveillance system (biohazards, bioterrorism, disease control, etc) “Portals” collecting data and presenting them Integrates multiple data sources to users new data can be added easily They can be public or behind corporate firewalls Portal’s internal organization makes use of semantic data, ontologies integration with external and internal data better queries, often based on controlled vocabularies or ontologies… 33 34 Help in choosing the right drug regimen Portal to aquatic resources Help in finding the best drug regimen for a specific case, per patient Integrate data from various sources (patients, (patients physicians, Pharma, researchers, ontologies, etc) Data (eg, regulation, drugs) change often, but the tool is much more resistant against change 35 36 9
- eTourism: provide personalized itinerary Integration of “social” software data Internal usage of wikis, blogs, RSS, etc, at EDF Integration of ggoal is to manage g the flow of information relevant l tddata t iin Zaragoza (using better RDF and Items are integrated via ontologies) RDF as a unifying format Use rules on the simple vocabularies like SIOC, FOAF, MOAT (all RDF data to public) provide a proper itine a itinerary internal data is combined with linked open data like Geonames SPARQL is used for internal queries Details are hidden from end users (via plugins, extra layers, etc) 37 38 Integration of “social” software Improved Search via Ontology data (GoPubMed) Search results are re-ranked using ontologies Related terms are highlighted, usable for further search 39 40 10
- New type of Web 2.0 “Review Anything” applications New Web 2.0 applications come every day g to look at Semantic Web as Some begin possible technology to improve their operation more structured tagging, making use of external services providing extra information to users etc. Some examples: Twine, Revyu, Faviki, … 41 42 Faviki: social bookmarking, Other application areas come to semantic tagging the fore Social bookmarking system (a bit like Content management del.icio.us) but with a controlled set of tags g Business intelligence tags are terms extracted from Collaborative user interfaces wikipedia/Dbpedia Sensor-based services tags are categorized using the relationships stored in Dbpedia Linking virtual communities tags can be multilingual, DBpedia providing the Grid infrastructure linguistic bridge Multimedia data management The tagging process itself is done via a user Etc interface hiding the complexities 43 44 11
- CEO guide for SW: the “DON’T- CEO guide for SW: the “DO-s” s” Start small: Test the Semantic Web waters with a pilot Go it alone: The Semantic Web is complex, and it's best project […] before investing large sums of time and to get help. money. money Forget privacy: Just because you can gather and Check credentials: A lot of systems integrators don't correlate data about employees doesn’t mean you really have the skills to deal with Semantic Web should. Set usage guidelines to safeguard employee technologies. Get someone who‘s savy in semantics. privacy. Expect training challenges: It often takes people a Expect perfection: While these technologies will help while to understand the technology. […] you find and correlate information more quickly, they’re Find an ally: It can be hard to articulate the potential far from perfect. Nothing can help if data are unreliable benefits so find someone with a problem that can be benefits, in the first place. solved with the Semantic Web and make that person a Be impatient: One early adopter at NASA says that the partner. potential benefits can justify the investments in time, money, and resources, but there must be a multi-year commitment to have any hope of success 45 46 Web ngữ nghĩa Web ngữ nghĩa Nghiên cứu về Web ngữ nghĩa: SWAD: làm thế nào để nhúng ngữ nghĩa một Chuẩn hoá các ngôn ngữ biểu diễn dữ liệu cách tự động vào các tài liệu Web? (XML) và siêu dữ liệu (RDF) trên Web. ¾ trích tự động ngữ nghĩa của mỗi tài liệu Web Chuẩn hoá các ngôn ngữ biểu diễn Ontology ¾ Chuyển sang các mẫu chung sử dụng ngôn ngữ cho Web có ngữ nghĩa. web ngữ nghĩa Phát triển nâng cao Web có ngữ nghĩa Việc tìm kiếm hiệu quả hơn. (Semantic Web Advanced Development - Ví dụ: tìm thành phố Sài Gòn: trả về các tài liệu SWAD). có TP.HCM hoặc Sài Gòn như một thành phố, chứ không phải các tài liệu chứa từ “Sài Gòn” như trong “Đội bóng Cảng Sài Gòn”, “Xí nghiệp may Sài Gòn”, hay “Cty Saigon Tourist”. 47 48 12
- KIM - Knowledge and Information Management VN-KIM KIM của Ontotext Lab, Bulgaria CSTT được xây dựng trên nền của Sesame, mã Trích rút thông tin từ các tin tức quốc tế nguồn mở quản lý tri thức theo RDF Ontology có ~250 lớp, 100 thuộc tính. Các tài liệu Web có chú thích ngữ nghĩa được CSTT có ~ 80,000 thực thể về các nhân vật, đánh chỉ mục và quản lý bằng mã nguồn mở thành phố, công ty, và tổ chức Lucene(mã nguồn mở bằng Java, cung cấp các VN-KIM: trích rút thực thể trong các trang báo chức năng truy vấn hiệu quả) điện tử tiếng Việt, bao gồm: Khối trích rút thông tin tự độngđược phát triển dựa CSTT về các nhân vật, ậ , tổ chức,, núi non,, sông g trên GATE ngòi, và địa điểm phổ biến ở Việt Nam. Tham khảo: Khối trích rút thông tin tự động http://www.dit.hcmut.edu.vn/~tru/VN- Khối tìm kiếm thông tin và các trang Web về các KIM/index.htm thực thể 49 50 Where are we now? Semantic Web is new technology about 10 years after the original WWW Many applications are experimental The goals may be inevitable... Applications working together with users’ information, not owning it drawing background knowledge from the Web p less dependence on hand-coded bespoke p software … but the particular technology is not 51 13
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Cơ sở dữ liệu hướng đối tượng - Đoàn Văn Ban
51 p | 284 | 56
-
Bài giảng Các mô hình và phần mềm tối ưu hoá và ứng dụng trong nông nghiệp - PGS.TS. Nguyễn Hải Thanh
97 p | 210 | 27
-
Bài giảng Lập trình hướng đối tượng: Chương 1 - Nguyễn Sơn Hoàng Quốc, ThS. Nguyễn Tấn Trần Minh Khang
34 p | 159 | 18
-
Sử dụng phần mềm Adobe Presenter để tạo một số tính năng nâng cao cho bài trình chiếu/bài giảng điện tử
5 p | 124 | 11
-
Bài giảng Lập trình hướng đối tượng: Chương 8 - Nguyễn Sơn Hoàng Quốc, ThS. Nguyễn Tấn Trần Minh Khang
20 p | 112 | 10
-
Bài giảng Lập trình hướng đối tượng: Chương 9 - Nguyễn Sơn Hoàng Quốc, ThS. Nguyễn Tấn Trần Minh Khang
59 p | 97 | 10
-
Bài giảng Trí tuệ nhân tạo - Lê Thanh Hương
44 p | 55 | 9
-
Bài giảng Lập trình hướng đối tượng: Chương 7 - Nguyễn Sơn Hoàng Quốc, ThS. Nguyễn Tấn Trần Minh Khang
11 p | 87 | 9
-
Bài giảng Lập trình hướng đối tượng: Chương 12 - Nguyễn Sơn Hoàng Quốc, ThS. Nguyễn Tấn Trần Minh Khang
59 p | 88 | 7
-
Bài giảng Chương 3: Thu nhận ảnh
37 p | 94 | 5
-
Bài giảng Hướng dẫn lập trình VB.NET - Chương 17: Kế thừa Form và tạo các lớp cơ sở
9 p | 86 | 5
-
Bài giảng Lập trình hướng đối tượng: Giao diện
21 p | 27 | 5
-
Bài giảng Lập trình hướng đối tượng: Quan hệ giữa các lớp
57 p | 64 | 5
-
Bài giảng Lập trình hướng đối tượng với Java - Chương 4: Tính kế thừa và đa hình
32 p | 58 | 4
-
Bài giảng Cơ sở Trí tuệ nhân tạo: Chương 1 - ThS. Phạm Thi Vương
30 p | 30 | 4
-
Bài giảng Xây dựng chương trình dịch: Bài 4 - Nguyễn Thị Thu Hương
5 p | 60 | 2
-
Bài giảng Lập trình hướng đối tượng: Một số kỹ thuật khác
23 p | 27 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn