intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Báo cáo nghiên cứu khoa học: "SEMADESK: KHUNG ỨNG DỤNG NGỮ NGHĨA QUẢN LÝ THÔNG TIN DESKTOP"

Chia sẻ: Nguyễn Phương Hà Linh Linh | Ngày: | Loại File: PDF | Số trang:12

103
lượt xem
7
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Ý tưởng về Desktop ngữ nghĩa (DesktopNN, tiếng Anh là Semantic Desktop) trong quản lý thông tin cá nhân xuất phát từ khái niệm “Memex” [1]. DesktopNN trở thành mô hình cho hệ quản lý thông tin cá nhân trong phạm vi ứng dụng của Web ngữ nghĩa (Semantic Web) [2]. Từ những nhu cầu và mong muốn của người sử dụng hiện nay, công nghiệp phần mềm hướng đến việc xử lý thông tin ngữ nghĩa trên desktop [3].

Chủ đề:
Lưu

Nội dung Text: Báo cáo nghiên cứu khoa học: "SEMADESK: KHUNG ỨNG DỤNG NGỮ NGHĨA QUẢN LÝ THÔNG TIN DESKTOP"

  1. TẠP CHÍ KHOA HỌC, Đại học Huế, Số 48, 2008 SEMADESK: KHUNG ỨNG DỤNG NGỮ NGHĨA QUẢN LÝ THÔNG TIN DESKTOP Nguyễn Quang Hưng, Hoàng Nguyễn Tuấn Minh, Nguyễn Mậu Quốc Hoàn, Nguyễn Văn Trung, Nguyễn Mậu Hân Trường Đại học Khoa học, Đại học Huế Hoàng Hữu Hạnh, Lê Mạnh Thạnh Đại học Huế TÓM TẮT Ý tưởng về Desktop ngữ nghĩa (DesktopNN, tiếng Anh là Semantic Desktop) trong quản lý thông tin cá nhân xuất phát từ khái niệm “Memex” [1]. DesktopNN trở thành mô hình cho hệ quản lý thông tin cá nhân trong phạm vi ứng dụng của Web ngữ nghĩa (Semantic Web) [2]. Từ những nhu cầu và mong muốn của người sử dụng hiện nay, công nghiệp phần mềm hướng đến việc xử lý thông tin ngữ nghĩa trên desktop [3]. Theo đó, đưa Web ngữ nghĩa (Web NN) vào ứng dụng trên máy tính cá nhân và điều này không chỉ là vấn đề công nghệ mà còn cả lý luận và tác động của con người [4]. Những người phát triển ứng dụng cá nhân tập trung vào các dịch vụ WebNN cần một môi trường phát triển RDF và ontology đầy đủ cho việc xây dựng sản ph m với mong muốn đem đến cho người sử dụng cuối những tính năng tốt hơn trong các ứng dụng desktop hiện nay. Dự án xây dựng khung ứng dụng SemaDesk ra đời từ những mong muốn đó và từ thực tế là các hướng tiếp cận hiện nay không thể giải phóng người dùng khỏi gánh nặng của sự phức tạp của các ứng dụng WebNN. Cách tiếp cận mà chúng tôi đề xuất hướng đến người sử dụng với việc đưa vào hệ thống các ontology, các phụ chú và quản lý tốt hồ sơ người dùng vào trong hệ quản lý dữ liệu cá nhân nhằm tạo ra nền tảng mới cho việc tổ chức và tìm kiếm trở nên hiệu quả hơn. 1. “SemaDesk„ Trong cuộc sống thường nhật, chúng ta tạo ra nhiều tài liệu, nhận hàng trăm thư điện tử và duyệt rất nhiều trang web. Tất cả các tài liệu này gắn liền với những ngữ cảnh cụ thể nào đó. Chẳng hạn, các thư điện tử có đính kèm các tài liệu công việc hay là các trang web chuyên môn của người dùng. Tuy nhiên, cấu trúc lưu trữ thư mục và tập tin như mô hình các hệ điều hành hiện nay không hỗ trợ cho việc tổ chức thông tin trong các tài liệu [5]. Metadata của các tài liệu này cũng không giúp ích gì cho việc tổ chức và tìm kiếm thông tin theo hướng có ngữ nghĩa. Do đó, chúng ta cần một hệ quản lý thông tin thông minh hơn và lọc tốt hơn trong quản lý thông tin cá nhân nói riêng và desktop nói chung. 55
  2. 1.1. Định nghĩa Desktop Ngữ Nghĩa Chúng tôi đơn giản hoá định nghĩa DesktopNN theo quan điểm người sử dụng và gắn liền với tính liên thông và cộng tác của các hệ thống SemaDesk. Định nghĩa: Một DesktopNN là một hệ thống thực thi ở tầng cao nhất của hệ điều hành cá nhân sử dụng công nghệ WebNN, cung cấp lớp ngữ nghĩa đã được làm giàu dùng để tổ chức thông tin cá nhân (bao gồm cả các dạng tài nguyên bên ngoài được sử dụng bởi người dùng) và cung cấp công cụ truy xuất thông tin có ngữ nghĩa. Hệ thống DesktopNN có thể tương tác và cộng tác lẫn nhau thông qua hệ thống mạng ngang hàng (peer-to-peer) sử dụng giao thức khác nhau. So sánh với định nghĩa trong [4], ở đây chúng tôi nhấn mạnh hai điểm: một là, DesktopNN là một hệ quản lý thông tin cá nhân (Personal Information Management - PIM); hai là, một tập các hệ thống DesktopNN có thể tương tác lẫn nhau nhằm chia sẻ và tái sử dụng thông tin cũng như tri thức. 1.2.‘SemaDesk’ ‘SemaDesk’ được phát triển nhằm khắc phục những bất lợi của các hệ thống DesktopNN hiện nay. Đầu tiên là việc làm giàu ngữ nghĩa cho các dữ liệu cá nhân. Các hệ thống tương tự chú trọng vào quy trình chuyển đổi dữ liệu cá nhân sang RDF [6] bằng việc xây dựng hệ thống thu thập dữ liệu và làm giàu ngữ nghĩa không kế thừa những công cụ đã có sẵn ở mức thấp hơn. Vì thế, chúng phải quan tâm thường xuyên đến các thay đổi về định dạng tài liệu hay các phiên bản ứng dụng, chẳng hạn như việc truy xuất vào database thư điện tử, lịch làm việc cần phụ thuộc vào phiên bản phần mềm đã lưu trữ trước đây, như là Microsoft Outlook hay Mozilla Thunderbird. Các công cụ tìm kiếm cá nhân hiện nay như Google Desktop Search (GDS)7, Yahoo! Desktop Search8 và Windows Desktop Search9 đã gợi cho chúng tôi ý tưởng sử dụng lại các ứng dụng này trong việc thu thập dữ liệu cá nhân. Thứ hai, chúng tôi cũng nhắm đến xây dựng một nền tảng ngữ nghĩa dựa trên thông tin cá nhân. Nền tảng này cung cấp các khung nhìn ngữ nghĩa khác nhau về dữ liệu. Điều này giúp ích không chỉ cho người dùng trên các dữ liệu mà họ nắm rõ mà còn hỗ trợ cho các nhà phát triển cần một lớp ngữ nghĩa để khai thác thông tin. Chúng tôi xây dựng các ontology về nguồn lưu trữ và phát triển một cách linh hoạt việc đưa các ontology này vào lớp ngữ nghĩa phản ánh khung nhìn của người dùng trên dữ liệu đó. Thứ ba, những nỗ lực trong nghiên cứu sẽ được phát triển và đưa vào hệ thống như là phụ chú ngữ nghĩa, phân tích ngữ nghĩa của dữ liệu cá nhân; chẳng hạn kết hợp các sự kiện liên quan, cho phép người dùng lấy thông tin theo ngữ cảnh, công cụ truy vấn mềm dẻo cho truy xuất dữ liệu một cách thông minh. 7 http://desktop.google.com/ 8 http://desktop.yahoo.com/ 9 http://www.microsoft.com/windows/products/winfamily/desktopsearch/ 56
  3. Cuối cùng và không kém phần quan trọng là cách tiếp cận hướng dịch vụ (Service-Oriented Architecture - SOA) mà chúng tôi lựa chọn để phát triển hệ thống SemaDesk. Các thành phần của SemaDesk được thực thi như các plugin độc lập có khả năng tương tác và trao đổi lẫn nhau thông qua dịch vụ nền. Dịch vụ này được xây dựng nhằm đồng bộ các trao đổi trên kênh dịch vụ, chẳng hạn các lời gọi dịch vụ tổng hợp. 2. Kiến trúc hệ thống của khung ứng dụng SemaDesk 2.1. Kiến trúc hệ thống Khung ứng dụng SemaDesk được phát triển dựa trên tính kiến trúc thành phần để lưu trữ, quản lý và truy xuất dữ liệu desktop và những thông tin cá nhân. Nó có thể thu thập và lưu trữ dữ liệu trong khi cho phép nối kết các mô tả tới dữ liệu trên máy tính cá nhân (email, các trang web, các cuộc gọi, hình ảnh, video, thông tin liên lạc…) và những nguồn tài nguyên khác. Đồng thời nó cũng cung cấp một kỹ thuật tìm kiếm hiệu quả dựa trên việc lưu trữ theo ngữ nghĩa, và giao diện người sử dụng mang tính ngữ nghĩa hơn khi được xây dựng dựa trên ngữ cảnh của người sử dụng. Mục đích cuối cùng của dự án này là nhằm xây dựng một hệ thống quản lý thông tin desktop sử dụng ontology như là một nền tảng cho việc hợp nhất, tổ chức và biểu diễn nội dung. Hình 1. Kiến trúc của Khung ứng dụng SemaDesk Toàn bộ hệ thống SemaDesk được thiết kế như là một tập các plugin tương tác lẫn nhau. Việc thiết kế này đảm bảo tính mềm dẻo và khả năng mở rộng của nền (platform) SemaDesk. Việc giao tiếp bên trong hệ thống dựa trên nền hướng dịch vụ với ưu điểm là tính liên kết không phụ thuộc nhau. Tổng quan về kiến trúc hệ thống SemaDesk được miêu tả ở Hình 1. 57
  4. Dữ liệu desktop với chú thích người dùng được đưa vào hệ thống bằng cách sử dụng một loạt các plugin cần thiết từ nhiều nguồn dữ liệu khác nhau. Các đối tượng dữ liệu được thu thập sẽ được chuyển đến plugin Analyst. Plugin này bao gồm một số lượng xác định các plugin được cung cấp cho việc xây dựng ngữ nghĩa bằng cách áp dụng một tập các phương thức chiết xuất được lồng vào nhau. Những đối tượng thông tin được làm giàu ngữ nghĩa và bán cấu trúc được lưu trữ theo ontology được sử dụng trong plugin Metastore. Trong hệ thống này, nguồn dữ liệu được lưu trữ dưới dạng bộ ba RDF (RDF triples) theo ontology của nó. Kho dữ liệu này được gọi là Tầng Ngữ nghĩa (Semantic Layer) với ý nghĩa nó là một lớp thêm vào một công cụ tìm kiếm desktop sẵn có nhằm làm giàu ngữ nghĩa cho dữ liệu. Một tập quá trình xử lý truy vấn được thực hiện bởi module truy vấn Querier và các công cụ trình diễn nhằm cung cấp phương tiện cho việc khám phá thông tin. Module Analyst với khả năng chiết xuất metadata sẽ tạo nên sự kết hợp giữa các mục/đối tượng desktop và thông tin cá nhân dựa vào các chú thích người sử dụng, hồ sơ người sử dụng và các ontology hệ thống. 2.2. Tầng ngữ nghĩa: SemaDesk Metastore Bước đầu tiên trong việc cài đặt SemaDesk ‘Metastore’ là phát triển một kỹ thuật thu thập dữ liệu và làm phong phú thêm ngữ nghĩa. Về cơ bản, các nguồn dữ liệu khác nhau ở chỗ: Dữ liệu được thu thập một cách tự động và lưu trữ trong kho dữ liệu có − ngữ nghĩa; Dữ liệu được làm giàu ngữ nghĩa bởi người sử dụng − Các nguồn dữ liệu ngoài được lấy về khi cần, và nó không được lưu vào − trong kho dữ liệu ngữ nghĩa Hình 2. Ontology của SemaDesk dùng cho nguồn dữ liệu và thông tin desktop 58
  5. Sau khi cân nhắc cNn thận và kiểm thử với nhiều lựa chọn khác nhau, chúng tôi nhận thấy rằng các máy tìm kiếm trên desktop (desktop search engines) thực thi rất hiệu quả với vai trò là các bộ thu thập dữ liệu. Hơn nữa, trong số những công cụ tìm kiếm desktop hiện nay, Google Desktop Search (GDS) là một hệ nền mở cho phép chúng tôi mở rộng mà sử dụng để chiết xuất những thông tin cần thiết. Đó chính là lý do tại sao chúng tôi chọn GDS như là module thu thập dữ liệu cho hệ thống SemaDesk. 2.2.1. Các Ontology trong SemaDesk Các lược đồ nguồn thu thập dữ liệu (datafeed), các thuộc tính về thông tin desktop và thông tin cá nhân, các định nghĩa hình thức cho các phụ chú được tổ chức bên trong kho ontology hệ thống và chúng được gọi là SemaDesk Ontologies. Đối với các tác vụ truy xuất thông tin desktop, chúng tôi phát triển các ontology bao gồm các ontoly cho các datafeed và siêu dữ liệu desktop (desktop metada) như miêu tả ở Hình 2. Các ontology trong hệ thống được xây dựng bằng ngôn ngữ OWL [7]. Theo [8], một phương pháp tiếp cận dựa trên ontology cho việc tích hợp dữ liệu dựa trên sự sự đối sánh các khái niệm của ontology toàn cục dùng để mô tả về lĩnh vực ứng dụng với các khái niệm được mô tả trong các ontology mô tả dữ liệu trong cơ sở dữ liệu cục bộ. Mỗi khi sự đối sánh giữa các ontology toàn cục với các ontology cục bộ được thực hiện, người sử dụng có thể truy vấn hàng trăm cơ sở dữ liệu bằng cách sử dụng một truy vấn đơn giản mà nó Nn đi các sự phức tạp về thông tin/dữ liệu bên dưới. Từ những ontology hệ thống này, một dịch vụ ánh xạ sẽ được thực hiện để tạo thành một ontology cho người sử dụng. Ontology này sẽ phản ánh cách nhìn (view) và tri thức của người sử dụng về các thông tin cá nhân của họ được lưu trữ trong SemaDesk; nó được gọi là ontology ngữ cảnh người dùng (user-context ontology). Hơn thế, các module truy vấn của SemaDesk sẽ chỉ cho ra những kết quả thích hợp nhất với ontology này. Tuy nhiên, vấn đề về suy diễn và truy vấn theo ngữ cảnh sẽ không được đề cập đến trong bài báo này. 2.2.2.Truy xuất thông tin desktop Các nguồn tài nguyên desktop có thể được sử dụng như tài nguyên web, ví dụ một nguồn tài nguyên sẽ có một URI. Các nguồn tài nguyên được xác định bởi các URI và các liên kết có thể được tạo ra từ một nguồn tài liệu đến một nguồn khác. Dữ liệu hiện tại có thể được chuyển sang các bộ ba RDF và được sử dụng bởi bất cứ ứng dụng theo kiêu liên thông. SemaDesk Metastore có thể quản lý tất cả các đối tượng dữ liệu tạo bởi GDS. Các nguồn dữ liệu sau đó sẽ được chuyển sang các bộ ba RDF và lưu trữ cùng ontology cùa chúng. Metastore sẽ tự động cập nhật một cách định kỳ thông qua GDS API khi có sự thay đổi thông tin desktop. Bằng cách này, chúng ta có thể đảm bảo tất cả các thông tin trong Metastore luôn được cập nhật. Điều này có thể thực hiện được được bởi vì Google 59
  6. SDK cung cấp các chơ chế làm việc dựa trên các sự kiện và thời gian cho việc theo dõi sự thay đổi dữ liệu desktop. 2.2.3. RDF Store và việc lập chỉ mục Hiện tại, RDF Store sử dụng trong khung ứng dụng SemanDesk được xây dựng trên nền của Jena Framework [9] với sự hỗ trợ của MySQL. RDF Store cũng được trang bị kỹ thuật lập chỉ mục full-text theo các bộ ba RDF sử dụng Lucene Framework10. Chúng tôi đang phát triển các thử nghiệm để kiểm tra các giải pháp khác nhau cho việc lưu trữ các bộ ba RDF bằng cách sử dụng nhiều framework lưu trữ ngữ nghĩa khác nhau như Mulgara11 InstanceStore [10], Sesame [11] hay một khung ứng dụng mới là JenaSDB12. Bằng cách này, chúng tôi sẽ hưởng lợi về mặt hiệu năng cũng như các đặc tính suy diễn có trong các khung ứng dụng này. 2.2.4. Nguồn dữ liệu ngoài (EDS) SemaDesk không thu thập được các nguồn dữ liệu và cả các kho lưu trữ dữ liệu bên ngoài. Những nguồn tài nguyên này không phù hợp để đưa vào hệ thống, điều này là do chúng thay đổi diễn ra liên tục, hoặc bao gồm một khối lượng lớn dữ liệu được định nghĩa với cấu trúc phức tạp. Các nguồn này có thể là những cơ sở dữ liệu dùng chung, các hệ thống thông tin doanh nghiệp, các cơ sở dữ liệu đã được tổ chức tốt, các công cụ tìm kiếm trên web,... Các nguồn dữ liệu ngoài này được truy vấn theo yêu cầu và một ontology phù hợp cho việc biểu diễn được tạo ra bởi các plugin bên trong hệ thống. 2.3. SD-Annot: Module Phụ chú SD-Annot, một thành phần Phụ chú (annotation) của SemaDesk framework, cung cấp cho người sử dụng một phương tiện để làm giàu ngữ nghĩa cho dữ liệu của họ bằng cách thêm vào các chú giải và lời trích dẫn; điều này giúp cho hệ thống về sau nhận ra những tri thức giá trị dựa vào các thông tin phụ chú này. SD-Annot sử dụng kỹ thuật phụ chú bán tự động. Một vài hoạt động sẽ được tự động chú giải dựa trên hành động của người sử dụng ví dụ như khi người sử dụng lưu trữ file đính kèm từ một thông điệp email vào ổ đĩa cứng, một lời phụ chú kết hợp sẽ được tạo để đồng thời lưu giữ ngữ nghĩa của các file lưu trữ và các thư điện tử. Một ví dụ khác là khi một trang web được mở từ một liên kết trong một thư điện tử, thì nó sẽ được tự động được chú thích để tạo nên một mối liên kết tới các trang khác. Bên cạnh các lời chú thích tự động, các lời phụ chú được thực hiện thủ công là chủ yếu. Người sử dụng có thể tạo ra các lời chú giải trên các đối tượng dữ liệu mà việc ngữ nghĩa hóa chúng rất khó khăn, ví dụ như ảnh, phim, dòng dữ liệu. Những lời chú 10 Apache Lucene, http://lucene.apache.org/ 11 http://www.mulgara.org/ 12 Jena SDB, http://jena.hpl.hp.com/wiki/SDB/ 60
  7. thích thủ công này phản ánh quan điểm của người sử dụng dựa trên sự hiểu biết của họ. Chúng ta chú ý đến 4 loại phụ chú: lời chú giải, câu hỏi, thông tin và sự hiệu chỉnh. Các lời phụ chú được lưu trữ cùng với hồ sơ cá nhân và thông tin ngữ cảnh chẳng hạn như thông tin thời gian và không gian. Sử dụng phụ chú, việc phân tích và truy vấn sẽ được thực hiện chính xác hơn trong việc kết hợp các đối tượng phù hợp và trong việc tìm được nhiều thông tin phù hợp hơn. Kết quả là những tri thức mới có thể được tìm thầy từ đây. 2.4. SD-Querier: Module Tìm kiếm dựa trên ngữ nghĩa Trong Metastore, dữ liệu đã được lưu trữ theo hướng ngữ nghĩa và được đánh chỉ mục full-text hỗ trợ tìm kiếm các yêu cầu không rõ ràng. Vì thế, hệ thống cho phép xử lý các truy vấn thông qua cơ sở dữ liệu RDF và ontology hệ thống. Một phần của thành phần truy vấn dùng metadata và ontology cung cấp cho người dùng kết quả tìm kiếm sát nghĩa hơn. Hình 3. Một phần giao diện sử dụng của SemaDesk SD-Querier Thành phần SD-Querier thực hiện chức năng xử lý truy vấn trong SemaDesk. SD-Querier không chỉ có khả năng xử lý các vấn đề nói trên mà còn giải quyết các yêu cầu chưa rõ ràng, tối nghĩa từ người sử dụng bằng cách đưa ra khung nhìn tổng quát các thông tin liên quan với nhau, thể hiện trong Hình 3. Kết quả là nó giúp người dùng định hướng lại truy vấn của mình, và sẽ chỉ định các truy vấn chính xác hơn. Nhiệm vụ cuối cùng của SD-Querier là hỗ trợ truy vấn theo ngữ cảnh thông qua ontology ngữ cảnh như đã trình bày ở mục trên, và các thành phần trong SD-Analyst: Context-aware Reasoner và User Profiler. Thành phần truy vấn theo ngữ cảnh biểu diễn các thông tin thích hợp dựa trên kinh nghiệm cá nhân được phản ánh qua hồ sơ người dùng và ontology ngữ cảnh. 61
  8. 2.5. SD-Analyst: Module Phân tích SD-Analyst, gọi tắt là Analyst, là thành phần quan trọng nhất trong khung ứng dụng SemaDesk. Analyst bao gồm một số các module phân tích cho việc chiết xuất metadata và phân tích ngữ nghĩa nhằm hỗ trợ cho các tác vụ hệ thống, ví dụ như truy vấn, chú thích và tìm kiếm các đối tượng thích hợp. Các thành phần của Analyst được mô tả ở Hình 4. Dữ liệu thu thập được từ G-Desktop plugin sẽ được RDF hóa bởi RDF Tripler của Analyst và được làm giàu bởi các chú giải của người sử dụng. RDF Tripler sẽ chuyển đổi các thông tin desktop sang các bộ ba RDF dựa theo các ontology dữ liệu nguồn của SemaDesk. Đây chính là bước đầu tiên nhằm làm giàu ngữ nghĩa cho thông tin desktop. Dựa vào sự khác nhau tự nhiên của các datafeed, nhiều bước phân tích của các thành phần con xử lý dữ liệu có thể được gọi để xử lý nhưng đối tượng dữ liệu cụ thể. Đây là điều cần thiết để hiểu rằng không có dữ liệu nào bị loại bỏ trong suốt các bước phân tích này. Điều này đòi hỏi sự bảo đảm rằng không có dữ liệu gốc nào bị mất hay thay đổi và lịch sử quá trình thay đổi sẽ được lưu giữ cho việc phân tích và thu hồi dữ liệu sau này. Hình 4. Các thành phần trong SD-Analyst Bộ suy diễn theo ngữ cảnh (context-aware reasoner) là thành phần con quan trọng nhất trong SD-Analyst. Nó có nhiệm vụ quản lý các tác vụ kết hợp các sự kiện có liên quan với nhau về mặt ngữ nghĩa, các thông tin cá nhân và các đối tượng dữ liệu. Sự lý luận này dựa trên sự kết hợp các quy tắc và nhận thức ngữ cảnh dựa trên ontology ngữ cảnh và tiểu sử người dùng. Quá trình này rất hữu ích trong việc tìm ra các tri thức từ những kho lưu trữ khổng lồ. Ví dụ, khi tạo một chú giải, với mỗi file lưu trữ chúng ta kết hợp tên tác giả và người nhận của email: Cuối cùng, User Profiler là thành phần con giúp người dùng và hệ thống có thể tổ chức và lưu giữ những thông tin cá nhân theo cách của họ. Thành phần này cũng 62
  9. đóng vai trò nắm giữ các chú thích cá nhân của các thông tin người dùng cho các sự hợp tác tiếp sau. 2.6. Tính cộng tác của các hệ thống SemaDesk SemaDesk được xem như là một hệ quản lý thông tin cá nhân, trở thành một cá thể có khả năng chia sẻ và sử dụng trong mạng xã hội. Ở đây, chúng tôi muốn gói gọn rằng giao diện cộng tác là một thành phần của khung ứng dụng SemaDesk hoàn chỉnh. Thành phần giao diện cộng tác định nghĩa các thông tin có thể trao đổi và khuôn mẫu giao tác qua dịch vụ từ các SemaDesk khác. Chúng tôi phân ra hai mức cộng tác: mức thứ nhất, thông tin trao đổi với nhau giữa các Metastore của SemaDesk trong chia sẽ thông tin cá nhân. Mức thứ hai, là sự cộng tác với các hệ thống tin cậy khác ở mức cao. 3. Quy trình thu thập và làm giàu ngữ nghĩa dữ liệu Như được miêu tả trong Hình 5, dữ liệu Google Desktop được thu thập thông qua plugin G-Desktop. Plugin G-Desktop dùng Google SDK cho phép lấy về dữ liệu desktop và metadata của nó. Thông tin desktop lấy về được chuyển thành RDF và làm giàu hơn qua các phụ chú của người dùng, sau đó chuyển đến RDF Store của Metastore để lưu trữ kèm với ontology của nó. Quá trình này được thực hiện theo định kỳ tuỳ thuộc vào thiết lập của người dùng. Trong suốt quá trình thu thập dữ liệu, thành phần Analyst có thể được gọi như suy diễn hay các công đoạn trích xuất siêu dữ liệu. Tất cả công việc này hoạt động dựa vào một ontology về dữ liệu hệ thống. Hình 5. Thu thập dữ liệu từ GDS và Quá trình làm giàu ngữ nghĩa GDS chỉ đánh chỉ mục cho các dạng tập tin và dữ liệu thông thường, như các tài liệu Microsoft Office, PDF, dữ liệu Outlook (thư điện tử, lịch, danh bạ, công việc, ghi chú,..). Vì vậy, để mở rộng phạm vi hoạt động của GDS, chúng tôi phát triển một plugin xử lý các nguồn dữ liệu khác và đính vào GDS. 63
  10. 4. Các nghiên cứu liên quan Semantic Desktop thu hút nhiều sự quan tâm từ cộng đồng nghiên cứu và cho ra nhiều công cụ, ứng dụng liên quan. Trong phạm vi bài viết, chúng tôi chỉ trình bày những kết quả liên quan gấn nhất đến nghiên cứu của mình. Gnowsis [12] là một desktop ngữ nghĩa chú trọng vào tính mở rộng và tích hợp. Mục đích cuối cùng của Gnowsis là nâng cao chất lượng của các ứng dụng cá nhân cũng như hệ điều hành máy tính cá nhân hiện có bằng cách sử dụng công nghệ WebNN. Đầu tiên là hệ quản lý thông tin cá nhân sử dụng RDF nhằm mô tả thông tin cá nhân. Các nguồn dữ liệu bên ngoài, như Microsoft Outlook hay Mozilla Thunderbird được tích hợp và gởi vào cho Gnowsis thông qua khung ứng dụng Aperture13. Các dữ liệu này sau khi nhận được sẽ chuyển đổi thành các định dạng ngữ nghĩa thông qua các công cụ plugin. Chẳng hạn như, các thuộc tính của thư điện tử trong Thunderbird sẽ được ánh xạ vào các khái niệm tương ứng trong ontology cá nhân. Ứng dụng thứ hai mà chúng tôi nói đến là SWIM [13]. Ý tưởng chính của SWIM là nâng cao các tính năng có sẵn trong các công cụ tìm kiếm cá nhân như Google Desktop, Beagle hay Spotlight. Mục tiêu đầu tiên của SWIM là tích hợp một cách mềm dẻo metadata sẵn có. Thời điểm trích xuất metadata chính là lúc SWIM tác động trực tiếp vào. Metadata không chỉ được trích xuất bởi các bộ chuyển đổi mà còn từ các loại dữ liệu khác như văn bản, hình ảnh cần cho việc tìm kiếm sau này. MetaDesk [14] là ứng dụng được xây dựng như một công cụ xác nhận RDF trợ giúp ghi nhận sự kiện một cách rõ ràng hơn là công cụ tạo ra các ontology sự kiện. MetaDesk chuyển các khái niệm người dùng thành các node trên cấu trúc RDF. Các mục tri thức này tập trung vào việc tạo ra một cấu trúc ngữ nghĩa làm cơ sở cho việc thu thập và diễn dịch dữ liệu. MetaDesk còn là một desktop ngữ nghĩa có thể tham chiếu đến các thư mục lưu trữ và tài liệu gốc bên trong cơ sở tri thức của nó. Tuy nhiên, các hướng tiếp cận trên đều có những giới hạn riêng. Đầu tiên, các thành phần thu thập dữ liệu không sử dụng các dữ liệu sẵn có của các công cụ tìm kiếm mà chúng cố gắng xây dựng dữ liệu độc lập bằng cách dò tìm trên dữ liệu máy tính cá nhân. Điều này bắt buộc chúng phải luôn lưu giữ trạng thái định dạng tài liệu tại mỗi thời điểm thu thập. Thứ hai, các dự án này không cho phép người sử dụng khai thác đặc tính phụ chú ngữ nghĩa trên dữ liệu về các tài nguyên họ quan tâm cũng như tự đưa ra các khái niệm và đặc tính về dữ liệu làm cơ sở cho xây dựng ontology về sau. Các phụ chú ngữ nghĩa cần được cung cấp trong thu thập thông tin và biểu diễn kết quả nhằm làm giàu thông tin. Ngoài ra, các công cụ này cũng không gắn yếu tố thời gian vào thông tin. Điều này rất quan trọng với hệ quản lý thông tin cá nhân, bởi nếu bỏ qua yếu tố thời gian thì các kết quả truy vấn sẽ trở nên hỗn tạp và khó xác định. Ngoài ra tính hướng 13 http://aperture.sourceforge.net/ 64
  11. ngữ cảnh giúp hạn chế không gian truy vấn và suy diễn cũng như nâng cao tính chính xác của thông tin cũng đã không được nhắc đến trong các tiếp cận trên. 5. Kết luận Trong bài báo này, chúng tôi đã đưa ra định nghĩa mới về DesktopNN như là một hạt nhân của mạng xã hội cộng tác. Mục tiêu cuối cùng của khung ứng dụng SemaDesk là xây dựng một hệ quản lý thông tin cá nhân giàu ngữ nghĩa nhằm quản lý thông tin và máy tính cá nhân với việc xem xét xây dựng một lớp ngữ nghĩa phủ lên kho dữ liệu hiện có. Vấn đề đưa ra ngữ cảnh và truy vấn là hai ưu tiên hàng đầu mà chúng tôi đang tập trung nghiên cứu với một số kết quả nhất định và hy vọng sẽ hoàn thành trong thời gian gần đây. Cuối cùng, sự cộng tác trong hệ thống SemaDesk là một trong những mục tiêu chính mà chúng tôi hướng đến. Vì thế, chúng tôi dự kiến tập trung vào xây dựng một cơ sở hạ tầng mạng cho các hệ SemaDesk nhằm có thể kết nối và cộng tác với nhau sao cho chúng có thể trở thành một mạng xã hội đặc trưng trong tương lai. TÀI LIỆU THAM KHẢO 1. V. Bush, As We May Think, Atlantic Monthly, vol. 176, (1945), 101-108. 2. T. Berners-Lee, J. Hendler, and O. Lassila, The Semantic Web: A new form of Web content that is meaningful to computers will unleash a revolution of new possibilities, Scientific American, vol. 284, May, (2001), 34-43. 3. CEUR, The Semantic Desktop Search, 2005. 4. L. Sauermann, A. Bernardi, and A. Dengel, Overview and outlook on the semantic desktop, in Proceedings of the 1st Workshop on The Semantic Desktop at the ISWC 2005 Conference, 2005. 5. S. Decker and M. Frank, The Social Semantic Desktop, in WWW2004 Workshop Application Design, Development and Implementation Issues in the Semantic Web, 2004. 6. E. Miller, R. Swick, and D. Brickley, Resource Description Framework (RDF), World Wide Web Consortium, 2004. 7. D. L. McGuinness and F. van Harmelen, OWL - Web Ontology Language, in Semantic Web: World Wide Web Consortium, 2004. 8. I. F. Cruz, W. Sunna, and A. Chaudhry, Ontology alignment for real-world applications, Proceedings of the 2004 annual national conference on Digital government research, (2004), 1-2. 9. B. McBride, Jena: A Semantic Web Toolkit, IEEE Internet Computing, vol. 6, 2002. 65
  12. 10. I. Horrocks, L. Li, D. Turi, and S. Bechhofer, The Instance Store: Description Logic Reasoning with Large Numbers of Individuals, International Workshop on Description Logics (DL 2004), (2004), 31–40. 11. J. Broekstra, A. Kampman, and F. van Harmelen, Sesame: An Architecture for Storing and Querying RDF Data and Schema Information, in Spinning the Semantic Web: Bringing the World Wide Web to Its Full Potential, 2003. 12. L. Sauermann and S. Schwarz, Introducing the Gnowsis Semantic Desktop, in Proceedings of the International Semantic Web Conference, 2004. 13. D. E. Rabus and T. Fuhr, SWIM–A Framework for Semantic Desktop Search, RadBoss.de, 2006. 14. R. MacGregor, S. Maggon, and B. Yan, MetaDesk: A Semantic Web Desktop Manager, in International Workshop on Knowledge Markup and Semantic Annotation, 2004. SEMADESK: A SEMANTIC DESKTOP FRAMEWORK FOR PERSONAL INFORMATION MANAGEMENT Nguyen Quang Hung, Hoang Nguyen Tuan Minh, Nguyen Mau Quoc Hoan, Nguyen Van Trung, Nguyen Mau Han College of Sciences, Hue University Hoang Huu Hanh, Le Manh Thanh Hue University SUMMARY In this article, we present ‘SemaDesk’ – a Semantic Web-based framework for managing the personal and desktop information. SemaDesk is inspired by the ‘Memex’ vision, a semantic desktop environment for applications, and the need of effectively finding information of the interest in a huge personal data storage. SemaDesk integrates several efforts of the Semantic Web community and the service-oriented approach to build a semantic environment for the developers, and brings certain benefit to the users for a better integration and communication platform. 66
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2