Sử dụng các định nghĩa quy tắc dựng sẵn với IBM
InfoSphere Information Analyzer
Tìm hiểu cách sử dụng các gói dựng sẵn của các quy tắc phân tích chất lượng dữ liệu IBM®
InfoSphere® Information Analyzer (Trình phân tích thông tin InfoSphere của IBM). Chúng tôi
sẽ cho bạn thấy cách hiểu nội dung có sẵn, cách sử dụng thông tin đó để giải quyết các điều kiện
chất lượng dữ liệu chung và sau đó cách nhập khẩu nó vào môi trường Information Analyzer
của bạn để đẩy nhanh việc phát triển và đánh giá quy tắc.
Tổng quan
Với InfoSphere Information Analyzer của IBM, bạn có thể tạo ra các quy tắc chất lượng dữ liệu
để giám sát tự động các vấn đề chất lượng dữ liệu tiềm năng dựa vào các yêu cầu kinh doanh đã
đnh hoặc dựa trên các vấn đề đã xác định trong việc phân tích hiệu năng dữ liệu. Các quy tắc
này thmất thời gian để phát triển và thử nghiệm để tìm ra hàng loạt dữ liệu trong mt bảng,
h thống hoặc môi trường cụ thể.
Mục tiêu của bài này là cho bạn thấy các cách để đẩy nhanh sự phát triển này thông qua việc
nhp khẩu và sử dụng các định nghĩa quy tắc dựng sẵn của Information Analyzer, kèm theo
bài này. Bng cách sử dụng các định nghĩa quy tắc chất lượng dữ liệu dựng sẵn, bạn sẽ có thể
đẩy nhanh việc phát triển xác nhận hợp lchất lượng dữ liệu trong doanh nghiệp của bạn.
Bài này tập trung vào các nhiệm vụ sau:
Hiểu biết về các định nghĩa quy tắc có sẵn trong các gói dựng sẵn.
Sử dụng các định nghĩa quy tắc dựng sẵn để giải quyết các điều kiện chất lượng dữ liệu
chung.
Rà soát lại cấu trúc và nội dung của tệp XML định nghĩa quy tắc của Information
Analyzer.
Nhập khẩu các định nghĩa quy tắc dữ liệu dựng sẵn bằng cách sử dụng API HTTP/CLI
mt tính năng được giới thiệu trong phiên bản V8.5 và phiên bản nâng cao V8.7 của
InfoSphere Information Analyzer.
Các quy tắc chất lượng dữ liệu dựng sẵn kèm theo bài này nhằm mục đích:
Giảm nỗ lực xác đnh các vấn đề chất lượng dữ liệu trong nhiều min thông tin ph biến
(các khóa, các mã định danh quốc gia, các ngày tháng, các mã quc gia, các đa chỉ
email, v.v..) các điều kiện (các kim tra tính toàn vn, các giá trị hợp lệ, các kim tra
phạm vi, tổng số gộp chung, các phương trình, v.v..).
Dùng làm các mô nh, các khuôn mẫu và các ví dụ dùng cho việc thiết kế quy tắc bổ
sung riêng của bạn.
Được sử dụng trong cácng việc của Information Analyzer (hoặc V8.5 hoặc V8.7) hoặc
thông qua Rule Stage (Giai đoạn quy tắc) có sẵn trong Phiên bản V8.7 của Information
Server (Máy chủ thông tin).
Về đầu trang
Giải quyết các miền dữ liệu và các điều kin chất lượng chung
Hầu như bất kỳ mảnh dữ liệu nào được lưu trong mt cơ sở dữ liệu hay tệp hay đang được x
thông qua một công việc hay dịch vụ web mt số điều kin liên quan cho biết liệu dữ liệu có
đáp ứng được các quy tắc xác nhận hợp lệ đã thiết lập không. Những điều kiện này thể đơn
giản khi cho biết rằng phải có dữ liệu trong trường (tức là, nó đầy đủ không) hoặc khidữ
liệu thì nó cần tuân theo mt số định dạng hoặc bộ các giá trị đã quy đnh (tức là, các giá tr hợp
lệ). Hoặc các điều kiện có thể chỉ ra rằng dữ liệu phải khớp với các bản ghi trong một nguồn
tham khảo đã quy định, dụ như các mã bưu điện hoặc cho biết rằng mt phương trình cụ thể
được tính toán đúng.
Phạm vi tim năng của dữ liệu có thể được đánh giá và slượng tim năng của các điều kiện
chất lượng có thể được xác định là rất phong phú và bài này (và các định nghĩa quy tắc dựng sẵn
kèm theo) không thể gii quyết mi tình hung có thể. Thay vào đó, bài này tập trung vào việc
cung cấp tài nguyên cho một tập các miền và các điều kiện dữ liệu được tìm thấy ph biến trong
nhiều nguồn dữ liệu.
Information Analyzer cung cấp mt khả năng để xác định logic quy tắc cho các miền dữ liệu và
các điều kiện như vậy tách rời khỏi bất k nguồn dữ liệu vật nào, do đó cùng một logic luôn
được áp dụng nhất quán t nguồn dữ liệu này sang nguồn dữ liệu khác (tức là, mt định nghĩa
quy tắc dữ liệu có thể được áp dụng và được sử dụng với nhiều nguồn dữ liu). Được kết hợp với
mt khả năng nhập khẩu một bộ các định nghĩa quy tắc theo mt định dạng XML đã định nghĩa,
bạn thể lấy các định nghĩa quy tắc dựng sẵn này và nạp chúng vào Information Analyzer và
bt đầu áp dụng chúng cho các nguồn dữ liệu riêng của bạn.
Các định nghĩa quy tắc
Các định nghĩa quy tắc tiếp theo mt cú pháp cơ bản mà ở đó một biến, có thể chỉ đơn giản là
mt từ hoặc thuật ngữ, được đánh giá dựa trên một điều kin hoặc kiểu kiểm tra đã quy định. Các
điều kiện hoặc kim tra đã quy định thể hoặc không thể yêu cầu một số giá trị tham khảo bổ
sung, ví dnhư biến khác, mt danh sách các giá tr, một định dạng cụ thể, v.v.. Hơn nữa, mt số
điều kiện có thể được kết nối cùng với các mnh đề IF, THEN, AND hoặc OR. Ví dụ, một định
nghĩa quy tắc rất đơn giản có thể như sau: DateOfBirth IS_DATE.
Điều kiện này ch ra rằng mt biến gọi là DateOfBirth phải mt định dạng ngày được công
nhận.
Trong một trường hợp phức tạp hơn mt chút, bạn có thể có một định nghĩa quy tắc như Liệt kê
1.
Liệt kê 1. Định nghĩa quy tắc mẫu
IF DateOfBirth EXISTS
AND DateOfBirth > datevalue('1900
-01-01')
AND DateOfBirth < date()
THEN CustomerType = 'P'
Ở đây, có một câu lệnh điều kin để kiểm tra xem biến DateOfBirth tồn tại và nằm trong
mt phạm vi đã thiết lập không và chỉ khic điều kiện đó được đáp ứng, một biến khác được
gọi là CustomerType mới được kiểm tra để xem liệu nó có bằng với mt giá trị đã quy định
không.
Thông tin thêm v việc tạo và sử dụng các đnh nghĩa quy tắc có sẵn trong tài liệu hướng dẫn
người dùng Information Analyzer (xem Các định nghĩa Quy tắc dữ liệu).
Các ví dụ về miền dữ liệu cơ bản
Các định nghĩa quy tắc cơ bản nhất kiểm tra để tìm sự đầy đủ của một trường hoặc mt định
dạng chữ hoặc số tiêu chuẩn. Các quy tắc dựng sẵn gm các dụ về những điều kiện này.
Hình 1. Các quy tắc kiểu dữ liệu và tính đầy đủ phổ biến
Ví dụ, định nghĩa quy tắc AlphanumFieldExists đánh giá điều kiện sau: Field1 EXISTS AND
len(trim(Field1)) <> 0.
Ví dụ này bao gm một số khả năng cơ bản của Information Analyzer:
Việc sử dụng mt tên biến chung trong trường hợp này, chỉ cần gọi là Field1
o LƯU Ý: Biến có thể được kết ni để (kết buộc) tới bất kỳ cột hoặc trường dữ liệu
o. Đây là tính linh hoạt cho phép một định nghĩa quy tắc cung cấp cơ sở cho
nhiều quy tắc dữ liệu có thể thực hiện được thực tế.
Kiểm tra để tìm nhiều điều kiện Sự tồn tại của dữ liu và mt điều kiện không bằng
(<>)
o LƯU Ý: Không có giới hạn cụ thể nào về số lượng các điều kin có thể được đưa
o trong một định nghĩa quy tắc, mặc dù trên thực tế để giữ cho các định nghĩa
quy tắc dễ hiểu là rất có ích. Trong việc tạo ra các định nghĩa quy tắc, hãy tìm
kiếm các khối xây dựng cơ bản và lợi dụng khả năng của bộ quy tắc của
Information Analyzer để kết hợp các điều kiện thay vì xây dng tất cả chúng
thành mt quy tắc (xem Các k thuật phân tích quy tắc dữ liệu trong Trung tâm
Thông tin của IBM].
Việc đưa vào các chức năng Trong trường hợp này là len và trim
o LƯU Ý: Hãy tham khảo Hướng dẫn người dùng Information Analyzer để biết
Các loại chức năng sẵn. Thường có thể sử dụng các chức năng để to các điều
kiện dễ giải quyết hơn. Trong trường hợp này, các chức năng được sử dụng để
kiểm tra các khoảng trống trong một trường. Trước tiên chức năng trim (cắt tỉa)
loi bỏ bất kỳ số lượng các giá trị để trống (khoảng trng) từ bên trái hoặc bên
phải của bất kỳn bản thực tế nào. Chức năng len xác định độ dài của tất cả các
ký tchữ và số còn li với một hy vọng rằng trường này sẽ có ít nhất một giá trị
ký t(có nghĩa là, chiều dài khác 0).
Các miền dữ liệu theo phân loại dliệu
Ở mức cơ bản, ngoài các ví dụ chung chung ở trên, bạn hầu như có thể phân loại dữ liệu vào mt
tập các miền dữ liệu chung như đã thấy trong các thông tin chi tiết về Column Analysis (Phân
tích Ct) của Information Analyzer:
định danh — Một trường phổ biến duy nhất và có thể nhận biết dữ liệu liên quan (ví
dụ, Customer ID - mã định danh khách hàng, National identifier - mã định danh quốc
gia).
Bộ chỉ thị — Mt trường, thường được gọi là mt Cờ, có một điều kin nhị phân ( dụ,
True - Đúng hay False - Sai, Yes -hoặc No - Không, Female - Nữ hay Male - Nam).
Mã (Code) — Một trường, có một bộ các giá trị riêng biệt đã xác định, thường được
viết tắt (ví dụ, Mã trạng thái, Trạng thái kch hàng).
Ngày — Mt trường có chứa một số giá trị ngày.
Số lượngMột trường có chứa mt giá tr số và không được phân loại như mt Mã
đnh danh hoặc Mã (ví dnhư, Price - Giá, Amount - Số tin, Asset Value - Giá tr tài
sản).
Văn bản Một trường có chứa các giá trị chữ và số, văn bản có thể dài không được
phân loi như mt Mã định danh hoặc Mã ( dụ, Name - Tên, Address - Địa chỉ,
Description - Mô tả).
Ngoài ra, có mt phân loại quy tắc cơ bản: Valid Value Combination (Kết hợp giá trị hợp lệ),
trong đó một trường thường là một giá trị nhất định, mt trường thứ hai phải một số giá tr cụ
thể.
Một tập con các định nga quy tắc dựng sẵn tiếp sau các việc phân nhóm chung và các yêu cầu
c nhận hợp lệ đin hình này. Ví dụ, Hình 2 nêu bật các định nghĩa quy tắc dựng sẵn cho các
trường Code.
Hình 2. Các định nghĩa quy tắc dựa trên phân loại phổ biến cho các mã s
Các định nghĩa quy tắc này dựa trên các phân loại dữ liệu phbiến thường đánh giá các đnh
dạng cấu trúc hay các yêu cầu xác nhận hợp lệ cơ bản (ví dụ, một Mã định danh phải nằm trong
mt phạm vi được giới hạn giữa mt giá tr thấp và một giá tr cao, nhưng nó không quy định bất
k giá trị chính c nào).
Ví dụ, nếu bạn có một trường Code cho phép các giá trị chữ số 0-9, bạn lcần áp dụng định
nghĩa quy tắc Code1DigitNumeric (xem trong Hình 2) để kim tra xem trường này chứa mt
giá tr số một chữ số không. Định nga quy tắc này như sau: Code MATCHES_FORMAT '9'.
Ví dụ này cho thấy mt điều kiện đơn gin:
Sử dụng một biến chung được gọi là Code
Một việc kiểm tra để tìm mt điều kiện định dạng duy nhất: MATCHES_FORMAT
o LƯU Ý: Information Analyzer có hai bước kiểm tra riêng biệt về đnh dạng dữ
liệu: MATCHES_FORMAT, được hiển thị ở đây và MATCHES_REGEX, đánh giá dựa vào
mt loạt các điều kin của biểu thức chính quy (có thể tìm thấy nhiều dụ thông
qua một tìm kiếm Google đơn gin theo thuật ngữ "regular expression" - biểu
thức chính quy).
Điều kiện MATCHES_FORMAT đòi hi mt giá trị tham khảo; trong trường hợp này, d
kiến một và ch mt giá tr số (tất cả các chữ số bằng số được biểu diễn bằng một số 9).
Các miền dữ liệu phổ biến
Như đã lưu ý, có nhiều miền dữ liệu tiềm năng có thể được kết hợp vào một gói các định nghĩa
quy tắc dữ liệu dựng sẵn. Các ví dụ về các miền phổ biến cho các gói có sẵn gồm có:
Thông tin nhân khu học
o Tui
o Ngày sinh
o Ngày mt
o định danh quốc gia ( dụ, Số an sinh xã hi của Hoa Kỳ, số SIN của Canada,
shộ chiếu, Mã tài chính của Ý, v.v..)
Thông tin địa chỉ Internet
o Địa chỉ email