72
Tạp chí Khoa học & Đào tạo Ngân hàng
Số 229- Tháng 6. 2021
© Học viện Ngân hàng
ISSN 1859 - 011X
Quản trị dữ liệu chủ đa miền: nâng cao quản trị dữ liệu
cho các tchức doanh nghiệp
Ngô Thùy Linh - Phan Thanh Đức
Khoa Hệ thống thông tin quản lý, Học viện Ngân hàng
Ngày nhận: 17/05/2021
Ngày nhận bản sửa: 26/05/2021
Ngày duyệt đăng: 25/06/2020
Tóm tắt: Dữ liệu ngày nay đã trở thành một trong những tài sản quan trọng của các
tổ chức, doanh nghiệp. Tuy nhiên, thách thức đặt ra với các nhà quản lý là làm thế
nào để thể khai thác, sử dụng quản dữ liệu một cách hiệu quả thông minh
khi có quá nhiều nguồn dữ liệu bên trong và bên ngoài tổ chức. Giải pháp quản lý
dữ liệu chủ đa miền dựa vào việc quản lý tổng thể dữ liệu trên đa miền sẽ giúp các
tổ chức có cái nhìn thống nhất và chính xác về các thực thể quan trọng, từ đó cung
cấp các thông tin tài chính phù hợp, đáng tin cậy. Bài báo này tập trung làm rõ các
khái niệm, tầm quan trọng của việc quản lý dữ liệu chủ đa miền và một số cách tiếp
cận khi xây dựng quản lý dữ liệu chủ đa miền.
Từ khóa: Dữ liệu chủ, Quản trị dữ liệu chủ, Quản lý dữ liệu chủ đa miền
Multi-domain master data management: improving data governance for enterprises
Abstract: Today data has become one of the important assets of organizations and businesses.
However, one challenge faced by managers is how to effectively and intelligently exploit, use and
manage data when the organization is exposed to a large number of both internal and external data
sources. A multi-domain master data management solution based on the overall management of data
across multiple domains will help organizations develop a unified and accurate view of important
entities, thereby providing suitable and reliable financial information. This article attempts to clarify
the concepts and the importance of multi-domain master data management, and propose feasible
approaches when building multi-domain master data management.
Keywords: Master Data, Master Data Management, Multi-Domain Master Data Management
Ngo, Thuy Linh
Email: linhnt@hvnh.edu.vn
Phan, Thanh Duc
Email: ducpt@hvnh.edu.vn
Organization of all: Faculty of Management Information System, Banking Academy of Vietnam
NGÔ THÙY LINH - PHAN THANH ĐỨC
Số 229- Tháng 6. 2021- Tạp chí Khoa học & Đào tạo Ngân hàng 73
1. Đặt vấn đề
Một khảo sát của Gartner (2019) cho thấy
rằng chất lượng dữ liệu kém đã dẫn đến chi
phí của các tổ chức tăng lên tới 11,8 triệu
USD. Một trong những nguyên nhân dẫn
đến chất lượng dữ liệu kém chưa tích hợp
được thông tin từ các nguồn dữ liệu khác
nhau trong tổ chức. Nhiều tổ chức hiện
nay đã nhận ra giá trị tầm quan trọng
của việc quản dữ liệu chủ (Master Data
Management- MDM) coi MDM một
giải pháp cho thách thức này. Các tổ chức
thường bắt đầu triển khai MDM dừng
việc tập trung vào một miền dữ liệu (a
data domain), sau đó mới mở rộng đến các
miền khác trong hình quản dữ liệu đa
miền (a multi- domain model). Trong quá
trình thực hiện, hầu hết các tổ chức gặp một
số khó khăn trong việc thực hiện đầy đủ
nhất quán các mục tiêu quản trị dữ liệu
chủ trên nhiều miền (Mark Allen & Dalton
Cervo, 2015). Sự khó khăn này bắt nguồn
từ việc không cái nhìn tổng thể về các
thành phần, chức năng và cả các dịch vụ để
thể quản trị dữ liệu chủ một cách chính
xác và hiệu quả. Một số tổ chức nhìn nhận
việc quản trị này về bản chất chỉ việc tích
hợp dữ liệu đơn thuần. Đây sẽ trở thành
một sai lầm khi các dữ liệu theo thời gian
ngày càng trở nên đa dạng và phức tạp, bởi
ngoài việc tích hợp dữ liệu thì tổ chức
còn cần phải đưa ra các trách nhiệm của
bộ phận, phòng ban đối với dữ liệu cần
phải quan tâm đến việc quản chất lượng
dữ liệu để thể tiếp cận thành công quản
trị dữ liệu trên nhiều miền. Phần tiếp theo
của bài báo sẽ trình bày các vấn đề liên
quan đến dữ liệu chủ, miền dữ liệu, quản
dữ liệu chủ, dữ liệu chủ đa miền một
số cách tiếp cận xây dựng quản trị đa miền
nhằm nâng cao việc quản trị dữ liệu cho các
tổ chức, doanh nghiệp.
2. Dữ liệu chủ và miền dữ liệu
Mỗi một miền dữ liệu phản ánh đến một
tập các thực thể quan trọng mà các tổ chức,
doanh nghiệp thường quan tâm như: tập các
khách hàng, các sản phẩm, các nhà cung
cấp, các nhân viên, tài chính, chính sách...
(Mark Allen & Dalton Cervo, 2015). Trong
mỗi miền dữ liệu có thể có một hoặc nhiều
thực thể, thực thể thể một đối tượng,
nhân, đơn vị, địa điểm... phải duy nhất
trong một miền nhất định thường
các thuộc tính kèm theo. Ví dụ, trong miền
Khách hàng, một doanh nghiệp đối tác
hoặc một nhân hợp đồng với doanh
nghiệp thể được coi một thực thể,
mỗi thực thể khách hàng một số thuộc
tính như: họ tên, số điện thoại, e-mail, giới
tính... Tùy vào từng loại hình, lĩnh vực kinh
doanh của từng tổ chức mà có các miền dữ
liệu với các thực thể khác nhau. Chẳng hạn
có một số miền dữ liệu tương ứng với từng
lĩnh vực như sau:
- Lĩnh vực sản xuất: Khách hàng, Sản phẩm,
Nhà cung cấp, Nguyên vật liệu, Địa điểm...
- Lĩnh vực chăm sóc sức khỏe: Bệnh nhân,
Nhà cung cấp, Sản phẩm, Khiếu nại, Triệu
chứng lâm sàng, Bảo hiểm...
- Lĩnh vực tài chính: Khách hàng, Tài
khoản, Sản phẩm, Địa điểm, Bảo hiểm...
- Lĩnh vực giáo dục: Sinh viên, Khoa bộ
môn, Địa điểm, Tài liệu, Khóa học...
Trên thực tế, mức độ ưu tiên về dữ liệu của
các thực thể khác nhau, dữ liệu nào
mức độ ưu tiên cao sẽ được lưu trữ trong
vùng bộ nhớ được truy cập nhanh hơn,
trong hệ tài nguyên tốt hơn, quan tâm về
chất lượng dữ liệu của thực thể đó hơn,
chế kiểm soát chất lượng dữ liệu tốt hơn.
Do đó khái niệm “Dữ liệu chủ” (Master
data) đã ra đời để tả, phản ánh đến
những dữ liệu quan trọng cần được quan
tâm nhiều hơn trong tổ chức. Theo John R.
Talburt & Yinle Zhou (2015), dữ liệu chủ
Quản trị dữ liệu chủ đa miền: nâng cao quản trị dữ liệu cho các tổ chức doanh nghiệp
Tạp chí Khoa học & Đào tạo Ngân hàng- Số 229- Tháng 6. 2021
74
của một tổ chức được định nghĩa là dữ liệu
được lưu giữ bởi tổ chức đó, tả các thực
thể độc lập và liên quan chính đến các hoạt
động của tổ chức. Một định nghĩa khác về
dữ liệu chủ là dữ liệu mô tả về các thực thể
quan trọng đối với các hoạt động phân
tích của tổ chức, cách dữ liệu này tương tác
chia sẻ sẽ cung cấp ngữ cảnh cho dữ liệu
giao dịch (Mark Allen & Dalton Cervo,
2015). Hay dữ liệu chủ là dữ liệu mô tả các
thực thể lõi của tổ chức với tập các thuộc
tính định danh nhất quán chính xác
(Keith Gordon, 2013).
dụ sau đây sẽ tả hơn về dữ liệu chủ,
dữ liệu về các thực thể khách hàng được lưu
trữ các hệ thống Kinh doanh Kế toán
của công ty X (David Loshin, 2009)
Các thông tin liên quan đến thực thể khách
Hình 1. Dữ liệu về khách hàng được lưu trữ ở 2 hệ thống khác nhau
Nguồn: David Loshin (2009)
Bảng 1. Dữ liệu chủ miền khách hàng của Hệ thống Kinh doanh
Customer Master Data
ID Cust FirstName MiddleName LastName TelNum Address City
KH002 An Van Le 090234567 25 Ly Thai To Ha Noi
Nguồn: David Loshin (2009)
Bảng 2. Dữ liệu chủ miền khách hàng của Hệ thống Kế toán
Customer Master Data
ID First Last Add City Zip Tel
ID0070 An Le 12 Chua Boc Ha Noi 100000 0909789456
Nguồn: David Loshin (2009)
NGÔ THÙY LINH - PHAN THANH ĐỨC
Số 229- Tháng 6. 2021- Tạp chí Khoa học & Đào tạo Ngân hàng 75
hàng được lưu trữ hai hệ thống này bao
gồm:
Hệ thống “Kinh doanh” lưu trữ các thông
tin khách hàng bao gồm: Tên (FirstName),
Tên đệm (MiddleName), Họ (LastName),
Số điện thoại (TelNum), Địa chỉ (Address).
Dữ liệu chủ miền khách hàng của hệ thống
Kinh doanh được biểu diễn như ở Bảng 1.
Hệ thống “Kế toán” lưu trữ các thông tin
của khách hàng bao gồm: Tên (First), Họ
(Last), Địa chỉ (Add), Thành phố (City),
bưu chính (ZIP), Số điện thoại (Tel).
Dữ liệu chủ miền khách hàng của hệ thống
Kế toán được thể hiện ở Bảng 2.
Các miền dữ liệu cũng như các dữ liệu khác
bên trong tổ chức đều thể chia thành 2
loại: dữ liệu hoạt động (operational data)
dữ liệu không hoạt động (nonoperational
data). “Dữ liệu hoạt động” tập hợp dữ
liệu theo thời gian thực để hỗ trợ yêu cầu
của tổ chức trong các hoạt động hàng ngày
của họ. “Dữ liệu không hoạt động” thường
được thu thập trong kho dữ liệu với tần suất
ít hơn được sử dụng cho hệ thống kinh
doanh thông minh (Dalton Cervo & Mark
Allen, 2011). Dữ liệu chủ về bản chất các
dữ liệu “không hoạt động”, cụ thể hơn, cấu
trúc dữ liệu chủ được mô tả ở Hình 2.
Cấu trúc dữ liệu chủ gồm 3 lớp: dữ liệu
tham chiếu, dữ liệu cấu trúc giao dịch, dữ
liệu cấu trúc doanh nghiệp.
- Dữ liệu tham chiếu (Reference Data): Dữ
liệu thường được mô tả bởi các giá trị được
sử dụng để phân biệt các dữ liệu khác nhau,
chẳng hạn như phân biệt giữa dữ liệu chủ
và dữ liệu giao dịch.
- Dữ liệu cấu trúc giao dịch (Transaction
structure data) đại diện cho những người
tham gia trực tiếp trong một giao dịch,
chẳng hạn như nhà cung cấp, khách hàng
sản phẩm. Thông tin về một giao dịch
không thể được ghi lại trừ khi thông tin chi
tiết của những người tham gia này đã tồn
tại trong cơ sở dữ liệu.
- Dữ liệu cấu trúc doanh nghiệp (Enterprise
structure data) là dữ liệu mô tả cấu trúc của
doanh nghiệp, ví dụ dữ liệu mô tả về cơ cấu
tổ chức hoặc cơ cấu tài chính.
Nếu coi dữ liệu chủ được biểu diễn dưới
dạng các danh từ của dữ liệu thông tin
thì dữ liệu giao dịch các động từ. Chúng
tả các hoạt động diễn ra hàng ngày
trong tổ chức, doanh nghiệp như việc bán
hàng, doanh số bán hàng, hay các bệnh
nhân được phép xuất viện hay nhập viên tại
bệnh viện...
Bất kể các miền dữ liệu được xác định như
thế nào, khái niệm dữ liệu chủ cần được
xác định ràng phân biệt với các loại
dữ liệu khác. Việc xác định dữ liệu chủ phụ
thuộc quan điểm của từng tổ chức dựa
vào các thực thể quan trọng trong các miền
dữ liệu của tổ chức đó.
3. Quản lý dữ liệu chủ
Mặc được định nghĩa dữ liệu chủ
nhưng dữ liệu này vẫn thể được lưu trữ
phân tán các hệ thống ứng dụng khác
nhau và do đó có thể dẫn đến các silo thông
tin (các thông tin biệt lập). Điều này phản
ánh một thực trạng tại nhiều doanh nghiệp
dữ liệu về một thực thể hay dữ liệu chủ
của một miền dữ liệu được lưu trữ nhiều
cơ sở dữ liệu khác nhau trong các hệ thống
Hình 2. Cấu trúc 3 lớp dữ liệu chủ
Nguồn: Keith Gordon (2013)
Quản trị dữ liệu chủ đa miền: nâng cao quản trị dữ liệu cho các tổ chức doanh nghiệp
Tạp chí Khoa học & Đào tạo Ngân hàng- Số 229- Tháng 6. 2021
76
khác nhau, nhưng thông tin phản ánh về
chúng lại không đồng nhất.
Việc lưu trữ dữ liệu chủ các hệ thống khác
nhau gây khó khăn trong việc tổng hợp,
phân tích xử thông tin. dụ được
tả Hình 1, ràng với dữ liệu chủ miền
khách hàng được lưu trữ ở hệ thống “Kinh
doanh” hệ thống “Kế toán” khác
nhau. Thực tế cùng một thực thể khách
hàng Lê Văn An nhưng thông tin về khách
hàng này được biểu diễn khác nhau 2 hệ
thống: hệ thống “Kinh doanh” khách hàng
An Van Le với khách hàng KH002,
số điện thoại 0902345678, địa chỉ 25
Thái Tổ, Nội khác với khách hàng An
Le (mã ID0070) trong hệ thống “Kế toán”
với địa chỉ tại 12 Chùa Bộc, nội, số
điện thoại 0909789456. Mặc dù đây là một
khách hàng duy nhất Văn An, nhưng khi
bộ phận quản muốn đưa ra các quyết định
liên quan đến kế hoạch chăm sóc khách
hàng giới thiệu sản phẩm thì họ không
biết được số điện thoại nào khách hàng hay
sử dụng cũng như địa chỉ khách hàng
thường xuyên mặt đâu để thể thực
hiện các chiến dịch quảng cáo, marketing
sản phẩm,... Vậy thông tin nào chính xác
nhất khi tả về dữ liệu chủ miền khách
hàng vấn đề doanh nghiệp cần quan
tâm cũng như một cái nhìn thống nhất
về dữ liệu chủ khách hàng tại một nơi duy
nhất thay thông tin nằm rải rác nhiều
hệ thống.
Nhìn rộng hơn, với doanh nghiệp sản xuất
kinh doanh sản phẩm nhiều bộ phận
phòng ban thì dữ liệu chủ xuất hiện được
lưu giữ ở các hệ thống tách biệt nhau như ở
Hình 3 (Keith Gordon, 2013).
Như tả Hình 3, dữ liệu chủ các miền
dữ liệu: khách hàng, sản phẩm, phòng ban,
nhà cung cấp xuất hiện các quy trình
trong các bộ phận, phòng ban khác nhau
(Bảng 3).
Dữ liệu chủ các miền dữ liệu được lưu
trữ một cách rời rạc các hệ thống thông
tin được cung cấp bởi các hãng khác nhau
như tả hai dụ trên (Hình 1, Hình
3) sẽ dẫn đến tình trạng: dữ liệu của cùng
một thực thể trong một miền dữ liệu sẽ
rất khác biệt khi đó chất lượng dữ liệu
không được đảm bảo ảnh hưởng đến việc
Hình 3. Mối quan hệ giữa các quy trình nghiệp vụ và dữ liệu chủ
Nguồn: Keith Gordon (2013)