Bài giảng Tích hợp dữ liệu và XML - Chương 9: Đối sánh lược đồ
lượt xem 1
download
Bài giảng Tích hợp dữ liệu và XML - Chương 9: Đối sánh lược đồ. Chương này cung cấp cho sinh viên những nội dung gồm: giới thiệu; khái niệm lược đồ; bài toán đối sánh lược đồ; phân loại các phương pháp đối sánh; vấn đề không thống nhất ngữ nghĩa; ứng dụng của đối sánh lược đồ;... Mời các bạn cùng tham khảo chi tiết nội dung bài giảng!
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Tích hợp dữ liệu và XML - Chương 9: Đối sánh lược đồ
- 04/04/2013 Nội dung 1. Giới thiệu Đối sánh lược ñồ 2. Khái niệm lược ñồ 3. Bài toán ñối sánh lược ñồ 4. Phân loại các phương pháp ñối Nguyễn Hồng Phương sánh Email: phuong.nguyenhong@hust.edu.vn 5. Vấn ñề không thống nhất ngữ nghĩa Site: http://is.hut.edu.vn/~phuongnh Bộ môn Hệ thống thông tin 6. Ứng dụng của ñối sánh lược ñồ Viện Công nghệ thông tin và Truyền thông Đại học Bách Khoa Hà Nội 1 2 1. Giới thiệu 1. Giới thiệu (tiếp) Lược ñồ là một cấu trúc siêu dữ liệu, mô tả dữ Nhiều ứng dụng, như kho dữ liệu, liệu có thể ñược lưu trữ, truy cập và thông dịch mediating giữa các website, khai phá dữ bởi người dùng và ứng dụng như thế nào. liệu, quản trị dữ liệu ngang hàng,… cần Ngoài khía cạnh kĩ thuật liên quan ñến quản trị tích hợp dữ liệu từ nhiều nguồn ñể hỗ trợ dữ liệu (như ñịnh dạng các trường, kiểu dữ liệu), các câu truy vấn và khả năng phân tích. lược ñồ cũng thể hiện khía cạnh ngữ nghĩa mở Tiến trình này, gọi là tích hợp dữ liệu, rộng (nội dung và nghĩa của dữ liệu): các giá trị nhắm ñến việc cung cấp một khung nhìn ñược phép, cardinality, ràng buộc toàn vẹn và ñồng bộ và nhất quán, gọi là sơ ñồ tổng tham chiếu. thể (global schema) Một số ngôn ngữ lược ñồ: Trên thực tế, việc tích hợp dữ liệu thường SQL (Structure Query Language) biểu diễn lược ñồ quan hệ ñược thực hiện tăng trưởng bằng cách bắt DTD (Document Type Definition) và XSD (XML Schema ñầu với một sơ ñồ tổng thể ñơn giản rồi Definition) biểu diễn lược ñồ tài liệu XML thêm các nguồn dữ liệu mới vào khi cần. OWL (Ontology Web Language) biểu diễn ontology 3 4 1. Giới thiệu (tiếp) Ví dụ: ñối sánh lược ñồ ñể tích hợp dữ liệu Việc tích hợp một nguồn dữ liệu mới vào sơ ñồ tổng thể hiện tại ñược thực hiện thông qua hai bước: S S Client GS (cũ) Client GS (mới) ñối sánh: lược ñồ nguồn ñược so sánh với •Id Customer •Id Customer lược ñồ tổng thể ñể xác ñịnh các phần tử •First •CID •First •CID tương ñồng và các phần tử khác biệt. •Last •Name •Last •Name •Home •Address •Home •Address chuyển ñổi dữ liệu: sinh ra các truy vấn ñề •Phone •Phone •Phone chuyển ñổi các dữ liệu thể hiện từ lược ñồ nguồn sang lược ñồ tổng thể. A) Đối sánh lược ñồ 5 6 1
- 04/04/2013 Ví dụ: ñối sánh lược ñồ ñể tích hợp dữ liệu (tiếp) 1. Giới thiệu (tiếp) Việc nhận diện các cặp tương quan ngữ Id First Last Home Phone nghĩa giữa hai lược ñồ ñược biết ñến 1 Kristen Smith Hurley St. 2 123 … … … … … như là ñối sánh lược ñồ. CID Name Address Phone 1 Kristen Smith Hurley St. 2 123 … … … … INSERT INTO GS(CID, Name, Address, Phone) SELECT Id, Concat(First, Last), Home, Phone FROM S B) Chuyển ñổi dữ liệu 7 8 2. Khái niệm lược ñồ 2. Khái niệm lược ñồ (tiếp) Lược ñồ có thể hiện hữu trong những OWL thường ñược sử dụng ñể ñặc tả ontology trên web ngữ nghĩa. Ontology nhắm ñến việc ñịnh dạng và ngôn ngữ khác nhau: khái niệm hóa tri thức miền và hỗ trợ biểu diễn SQL, UML, DTD, XSD, OWL,… một cách giàu ngữ nghĩa thế giới thực hơn là SQL cho phép ñịnh nghĩa lược ñồ cho CSDL hoặc lược ñồ tài liệu. OWL cung cấp cấu trúc dựa trên XML ñể ñịnh nghĩa lớp, mối quan CSDL quan hệ, truy vấn và thao tác dữ hệ giữa chúng, các thuộc tính, miền giá trị của liệu lưu trữ trong lược ñồ. chúng. Miền giá trị của thuộc tính có thể là XSD mô tả cấu trúc của tài liệu XML. kiểu dữ liệu nguyên tố hoặc một lớp ñã ñược Thành phần chính xủa XSD là các phần ñịnh nghĩa.Các lớp OWL có thể có các thể hiện, lưu trữ trong cùng tài liệu XML. tử, thuộc tính và kiểu. 9 10 2. Khái niệm lược ñồ (tiếp) 2. Khái niệm lược ñồ (tiếp) Một cách tổng quát, lược ñồ ñược ñịnh Với lược ñồ XSD, phần tử lược ñồ gồm các nghĩa ñơn giản là một tập các phần tử phần tử XML và các thuộc tính; cấu trúc lược ñồ gồm mối quan hệ giữa phần tử và ñược nối với nhau bởi một cấu trúc nào các phần tử con ñược xác ñịnh bởi kiểu ñó. phức hợp Ví dụ: Với OWL, các lớp và các thuộc tính là các Với lược ñồ quan hệ, các bảng và cột là các phần tử lược ñồ; mối quan hệ giữa các lớp phần tử của lược ñồ; mối quan hệ giữa các và mối quan hệ giữa các lớp với các thuộc bảng, các cột và ràng buộc tham chiếu tính hình thành cấu trúc lược ñồ. giữa các bảng là cấu trúc lược ñồ. 11 12 2
- 04/04/2013 3. Bài toán ñối sánh lược ñồ Thông tin ñầu vào Vấn ñề ñối sánh lược ñồ ñược phát biểu Cần khai thác triệt ñể thông tin hiện có ñể như sau: hiểu ñược ngữ nghĩa của các phần tử lược Cho hai lược ñồ S1 và S2, tìm ra các cặp ñồ, từ ñó phát hiện sự tương ñồng giữa phần tử tương ứng phù hợp giữa S1 và S2, chúng. khai thác tất cả thông tin hiện có như lược Thông tin lược ñồ: tên phần tử, mô tả, kiểu dữ ñồ, dữ liệu thể hiện và nguồn phụ trợ. liệu, cấu trúc lược ñồ, mối quan hệ khác giữa các phần tử. Nếu hai phần tử ñược cho là tương Dữ liệu thể hiện: trong nhiều ứng dụng, dữ ñồng, thì không nên có sự tương ñồng liệu thể hiện luôn sẵn có cho các lược ñồ. nào giữa một trong hai phần tử này với Thông tin bổ trợ: tất cả các thông tin có thể phần tử thứ 3 khác mà chất lượng ñối khai thác ñể phát hiện sự tương ñồng giữa các sánh tốt hơn. phần tử lược ñồ như ñồng nghĩa, phân cấp, từ ñiển,… 13 14 Thông tin ra Thông tin ra (tiếp) Cho hai lược ñồ S1 và S2, thao tác ñối Biểu thức ánh xạ sánh trả về ánh xạ giữa chúng, là kết Về ngữ nghĩa, có thể sử dụng các quan hệ quả của việc ñối sánh. ñẳng hướng ñơn giản, quan hệ thuật ngữ, quan hệ hướng tập, hàm (hàm nối, hàm Ánh xạ là một tập hợp các phần tử ánh toán học) xạ, hoặc các tương ứng; mỗi tương ứng Biểu thức ánh xạ có thể có hàm ngược, ví xác ñịnh chính xác các phần tử của S1 dụ ánh xạ 1:1; hoặc không thể ánh xạ tương ứng với các phần tử của S2. ngược. Mỗi tương ứng có thể có biểu thức ánh Phần lớn các kỹ thuật ñối sánh lược ñồ xạ, xác ñịnh cách mà phần tử của S1 và tự ñộng dựa trên heuristic nên rất khó S2 liên quan với nhau. mô hình hóa toán học chính xác. 15 16 4. Phân loại các phương pháp ñối sánh 4.1. Một số cách phân loại 4.1. Một số cách phân loại Lược ñồ vs. thể hiện: xem xét thông tin mức lược ñồ như siêu dữ liệu (tên phần tử, kiểu dữ liệu, 4.2. Đối sánh dựa trên lược ñồ thuộc tính,…) 4.3. Đối sánh dựa trên thể hiện dữ liệu thể hiện (nội dung dữ liệu) Phần tử vs. cấu trúc: 4.4. Đối sánh hướng tái sử dụng so sánh từng phần tử lược ñồ (như là các thuộc tính) 4.5. Tiếp cận kết hợp kết hợp các phần tử với nhau trong một cấu trúc Ngôn ngữ vs. ràng buộc: 4.6. Match cardinality tiếp cận ngôn ngữ (so sánh tên, mô tả text của phần tử) tiếp cận dựa trên ràng buộc (ràng buộc ñịnh nghĩa trên các phần tử như kiểu dữ liệu, tính duy nhất, khóa,…) 17 18 3
- 04/04/2013 4.1. Một số cách phân loại Sơ ñồ phân loại Tái sử dụng vs. không tái sử dụng Schema-based Instance-based Reuse-oriented sử dụng các thông tin bổ trợ: từ ñiển, lược ñồ tổng thể, các quyết ñịnh ñối sánh trước ñây, ñầu vào người dùng. Element Structure Element Structure Schema Mapping Lai vs. tổng hợp •Name •Thesauri Linguistic Constraint- Constraint- Linguistic Constraint- spaces Bộ ñối sánh có thể là sự kết hợp của một based based based •Schema •Previous match số tiếp cận riêng libraries results •…. •…. •Names •Types •Parents •Keywords •Value •Descriptions •Keys •Children •Word pattern and •…. •…. •Leaves frequency ranges •…. •…. •…. 19 20 4.2. Đối sánh dựa trên lược ñồ Tiếp cận dựa trên ngôn ngữ Chỉ xem xét thông tin lược ñồ Khai thác các tính chất dựa trên text Dựa trên tính biểu ñạt của ngôn ngữ của các phần tử: tên, mô tả. lược ñồ, thông tin bao gồm các thuộc Sự tương ñồng về tên có thể ñược ñánh tính khác nhau của phần tử lược ñồ giá bằng cách so sánh chuỗi tên (ngữ (tên, mô tả, kiểu dữ liệu, ràng buộc,…) pháp) hoặc ý nghĩa của chúng (ngữ và mối quan hệ giữa chúng (ràng buộc nghĩa) tham chiếu, is-a/part-of) 21 22 Tiếp cận dựa trên ngôn ngữ (tiếp) Tiếp cận dựa trên ngôn ngữ (tiếp) Đối sánh tên ngữ pháp: thuần túy so Đối sánh tên ngữ nghĩa: dựa trên mối sánh hai chuỗi tên quan hệ thuật ngữ: ñồng nghĩa, phân ñối sánh chuỗi chính xác cấp,… cùng không gian tên, cùng phản ánh ngữ Cần có nguồn thông tin bổ trợ như từ ñiển, nghĩa duy nhất ontology, bảng từ ñồng nghĩa, từ ñiển ña ñối sánh chuỗi xấp xỉ: tên và tên viết tắt. ngôn ngữ WordNet,… Vd: Customer và Cust. Một số thuật toán: Hiện tượng từ ña nghĩa? EditDistance: quy hoạch ñộng; số thao tác soạn thảo ñể biến một chuỗi thành chuỗi kia N-Gram: Diagram, TriGram SoundEx: tính toán sự tương ñồng ngữ âm giữa các tên từ mã SoundEx của chúng 23 24 4
- 04/04/2013 Tiếp cận dựa trên ngôn ngữ (tiếp) Tiếp cận dựa trên ràng buộc Về mô tả của phần tử Các ràng buộc: khai báo kiểu dữ liệu, coi như là ñoạn text, tài liệu các giá trị cho phép, miền giá trị, tính kỹ thuật xử lý ngôn ngữ tự nhiên, kỹ thuật duy nhất, tùy chọn,… tìm kiếm thông tin Nên có bảng so sánh cho các kiểu dữ liệu, ví dụ: string và varchar,… 25 26 Tiếp cận mức cấu trúc Tiếp cận mức cấu trúc (tiếp) Khai thác mối quan hệ giữa các phần tử Xem xét các phần tử lân cận ñể ước và ñối sánh sự kết hợp của các phần tử lượng sự tương ñồng: nút cha, nút con, xuất hiện cùng nhau trong một cấu các nút lá,… trúc. Một số kiểu quan hệ dựa trên khả năng mô hình hóa của ngôn ngữ lược ñồ is-a/part-of chứa ñựng ràng buộc tham chiếu 27 28 4.3. Đối sánh dựa trên thể hiện 4.3. Đối sánh dựa trên thể hiện (tiếp) Xem xét dữ liệu thể hiện ñể quyết ñịnh các Vấn ñề phần tử tương quan lượng dữ liệu lớn Kỹ thuật này ñược sử dụng trong trường các kỹ thuật khai phá dữ liệu: làm sạch, hợp trích chọn ñặc trưng,… Có ít thông tin mức lược ñồ Dữ liệu bán cấu trúc Không có thông tin lược ñồ =>Trích rút/khôi phục lược ñồ Kỹ thuật này bổ sung và làm tăng tính chính xác cho kỹ thuật dựa trên lược ñồ. 29 30 5
- 04/04/2013 Tiếp cận mức phần tử Tiếp cận mức cấu trúc Đối với thuộc tính dựa trên text, các kỹ Xem xét các thể hiện của nhiều thuộc thuật tìm kiếm thông tin: tính cùng lúc tìm từ khóa, chủ ñề dựa trên tần suất Sự kết hợp giữa các thuộc tính: có thể tương ñối của từ rất lớn sự kết hợp các từ trong thể hiện thuộc tính. Đối với thuộc tính số và chuỗi chiều dài dữ liệu, kiểu dữ liệu, miền giá trị, trung bình, phân bố giá trị, ràng buộc khóa, tần suất các ký tự,… 31 32 4.4. Đối sánh hướng tái sử dụng Tái sử dụng dựa trên lược ñồ Tái sử dụng các phần lược ñồ và các Các tên ñã ñược sử dụng chung ñược phần tương quan ñã ñược xác ñịnh ñịnh nghĩa và duy trì trong từ ñiển tổng trước ñó. thể hoặc không gian tên. Sử dụng tất cả các thông tin bổ trợ ñể Khai thác thêm các ñặc ñiểm khác của cải thiện quá trình ñối sánh. lược ñồ: kiểu dữ liệu, khóa, ràng buộc. Vấn ñề: các tổ chức khác nhau khó chấp nhận dùng chung một không gian tên, từ ñiển chung,… 33 34 Tái sử dụng dựa trên ánh xạ 4.5. Tiếp cận kết hợp Khai thác mối quan hệ tương ñồng ñã Kết hợp nhiều cách tiếp cận ñược quyết ñịnh từ trước. Hybrid matcher: tích hợp các cách tiếp cận lại Composite matcher: kết hợp các kết quả của các bộ ñối sánh ñộc lập. 35 36 6
- 04/04/2013 4.6. Match cardinality 4.6. Match cardinality (tiếp) Một phần tử của lược ñồ S1 (hoặc S2) có Ví dụ Cardian Phần tử S1 Phần tử S2 Biểu thức ánh xạ thể tham gia vào 0, 1 hoặc nhiều tương lity quan của kết quả ñối sánh. 1:1 Price Cost Price = Cost Một hoặc nhiều phần tử của S1 có thể n:1 FirstName, Name Concat(FirstName, ñối sánh với 1 hoặc nhiều phần tử của LastName LastName) = Name S2 1:n Name FirstName, Split(Name) = {FirstName, LastName LastName} ñối sánh mức phần tử: 1:1, 1:n, n:1 n:m P.PersName, A.Person, SELECT P.PersName, ñối sánh mức cấu trúc: n:m P.DeptNo A.Department D.DeptName D.DeptNo, FROM P, D D.DeptName WHERE P.DeptNo = D.DeptNo = {A.Person, A.Department} 37 38 5. Vấn ñề không thống nhất ngữ nghĩa 5. Vấn ñề không thống nhất ngữ nghĩa Nguồn thông tin không thống nhất Các tên giống nhau chưa chắc ñã biểu diễn cùng ngữ nghĩa; các tên khác nhau vẫn có thể Lược ñồ và dữ liệu không thống nhất chỉ ñịnh cùng một khái niệm thế giới thực. Để hiểu ngữ nghĩa của phần tử: tên phần Tên phần tử có thể ñược mã hóa hoặc viết tắt tử, kiểu dữ liệu, giá trị cho phép, cấu trúc Ràng buộc toàn vẹn ñược quy ñịnh trong lược ñồ, nhóm phần tử chương trình truy cập dữ liệu, không ñược khai báo ở mức lược ñồ. Thông tin: không ñầy ñủ, không ñáng tin cậy Phần tử có thể ñược mô hình hóa ở nhiều mức ñộ khác nhau: thông tin ñịa chỉ ñược chia Lược ñồ ñược phát triển ñộc lập bởi nhiều thành phố, mã vùng, thành phố ở trong lược người, với nhận thức thế giới thực khác ñồ này, nhưng lại chỉ là 1 trường trong lược ñồ nhau, vì mục ñích khác nhau. khác. Một số ví dụ: 39 40 5. Vấn ñề không thống nhất ngữ nghĩa 6. Ứng dụng của ñối sánh lược ñồ Dữ liệu thể hiện cung cấp thêm nội dung Tích hợp lược ñồ và dữ liệu và ý nghĩa của phần tử lược ñồ; tuy nhiên, Thương mại ñiện tử thông tin này cũng có thể không nhất quán, khác nhau trên CSDL khác nhau: Web ngữ nghĩa "F", "Female" chỉ giới tính nữ Quản trị mô hình sử dụng các ñơn vị khác nhau (Euro và Dollar,…), ñịnh dạng khác nhau,… Có thể chứa lỗi chính tả,… 41 42 7
- 04/04/2013 Lời hay ý ñẹp "Không có con ñường nào quá dài ñối với kẻ bước ñi thong thả. Không có thành công nào quá xa vời ñối với những ai kiên nhẫn làm việc" Jean de La Bruyère 43 44 8
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Cơ sở dữ liệu - Chương 4: Đại số quan hệ
30 p | 291 | 45
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 6 - ĐH Bách khoa TP.HCM
67 p | 267 | 22
-
Bài giảng Tích hợp hệ thống: Bài 4 - ĐH Kinh tế Tp HCM
40 p | 138 | 20
-
Bài giảng Khai phá dữ liệu: Chương 2 - TS. Võ Thị Ngọc Châu
58 p | 102 | 9
-
Bài giảng Cơ sở dữ liệu (Database): Chương 5 - TS. Lê Thị Lan
6 p | 92 | 7
-
Bài giảng Tích hợp dữ liệu và XML - Chương 11: Ứng dụng quản trị mô hình vào bài toán siêu dữ liệu cổ điển
4 p | 7 | 2
-
Bài giảng Tích hợp dữ liệu và XML - Chương 7: XLink và XPointer
5 p | 5 | 1
-
Bài giảng Tích hợp dữ liệu và XML - Chương 10: Đối sánh chuỗi
5 p | 8 | 1
-
Bài giảng Tích hợp dữ liệu và XML - Chương 12: XSLT
7 p | 8 | 1
-
Bài giảng Tích hợp dữ liệu và XML - Chương 6: XQuery
6 p | 6 | 1
-
Bài giảng Tích hợp dữ liệu và XML - Chương 5: XPath
13 p | 8 | 1
-
Bài giảng Tích hợp dữ liệu và XML - Chương 4: XML Schema
20 p | 5 | 1
-
Bài giảng Tích hợp dữ liệu và XML - Chương 3: XML DOM
19 p | 5 | 1
-
Bài giảng Tích hợp dữ liệu và XML - Chương 8: DTD
7 p | 7 | 1
-
Bài giảng Tích hợp dữ liệu và XML - Chương 2: XML
4 p | 10 | 1
-
Bài giảng Tích hợp dữ liệu và XML - Chương 0: Giới thiệu môn học
2 p | 7 | 1
-
Bài giảng Tích hợp dữ liệu và XML - Chương 1: Tổng quan Tích hợp dữ liệu
5 p | 10 | 1
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn