35
TAÏP CHÍ KHOA HOÏC VAØ COÂNG NGHEÄ ÑAÏI HOÏC COÂNG NGHEÄ ÑOÀNG NAI
S: 02-2024
GIẢI PHÁP MỞ RNG KHO D LIU PHC V QUẢN LÝ
ĐIỀU HÀNH VÀ RA QUYẾT ĐỊNH TRONG CÁC TỔ CHC,
DOANH NGHIP
Chu Thị Hồng Hải1*, Nguyễn Thị Liệu2
1 Hc viện Ngân hàng
2Trường Đại học Công nghệ Đồng Nai
*Tác giả liên hệ: Chu Th Hng Hi, email: haict@hvnhv.edu.vn
1. ĐẶT VẤN ĐỀ
Trong k nguyên số hóa, thông tin trở thành
mt ngun lực cùng quý giá của doanh
nghip. Mỗi ngày, hàng triệu d liệu được to ra,
lưu trữ, câu hỏi đặt ra: Làm thế nào để qun
khai thác được giá tr t ợng thông tin
khng l này? Kho d liệu một giải pháp tốt
cho t chc, doanh nghip.
Khái niệm kho d liu (Data Warehouse)
không còn xa lạ, năm 1988 kho dữ liệu được nhc
ti bởi hai nhà nghiên cứu của IBM Barry
Devlin Paul Murphy. Thời gian đó, nhu cầu
lưu trữ d liệu phát sinh khi các hệ thống máy
tính trở nên phức tạp hơn phải x lượng d
liệu ngày càng lớn [William H. Inmon, 2008].
Trong những năm đầu, kho d liu ch yếu được
s dụng trong các doanh nghip lớn, nguồn
lực việc triển khai duy trì hệ thng còn rất
phc tạp. Ngày nay, nhiều công ngh mới ra đời
đã hỗ tr cho việc xây dng, vận hành phát
trin kho d liu tr lên đơn giản, thun tin. Mt
khác, với s phát triển nhanh chóng của nn kinh
tế số, hội số, các quốc gia thc hiện Chính phủ
điện tử, chính phủ số,,…đã đòi hỏi các doanh
nghip muốn phát triển, đứng vững trên thị
trường, tạo đột phá thì chắc chn phải quan tâm
đến d liu, coi d liệu một trong những tài sản
quí giá của t chc, cần được quản lý, khai thác
sao cho hiu quả, nâng cao giá trị ca d liu.
Chính vậy, gần đây kho dữ liệu đóng vai trò
cùng quan trọng then chốt trong các chiến
c, mục tiêu phát triển doanh nghip. Nh kho
d liệu các doanh nghiệp khả năng phân tích
chuyên sâu các d liu theo chui thi gian, giúp
nhà lãnh đạo hiểu thêm quá trình kinh doanh
THÔNG TIN CHUNG
TÓM TẮT
Ngày nhận bài: 02/01/2023
Kho d liệu đóng vai trò then chốt trong vic tp hp, x lý và
cung cp d liệu cho các quyết định kinh doanh trong các tổ
chc, doanh nghiệp. Qua nghiên cứu thc trng cho thy nhu
cu m rng kho d liu nhằm tăng đ ph d liu, chiều sâu
thông tin,… là cần thiết, thường xuyên và liên tục. Để giúp các
t chc, doanh nghiệp nhanh chóng thc hin hoạt động m
rng kho d liệu, bài viết tập trung trình bày các ni dung liên
quan ti kho d liu, m rng kho d liệu đặc biệt các
nhóm giải pháp giúp mở rng kho d liệu trong các tổ chc,
doanh nghip.
Ngày nhận bài sửa: 05/12/2023
Ngày duyệt đăng: 08/12/2023
T KHOÁ
Kho d liu;
Kết ni d liu;
Chia s d liu;
M rng kho d liu;
Tích hợp d liu.
TAÏP CHÍ KHOA HOÏC VAØ COÂNG NGHEÄ ÑAÏI HOÏC COÂNG NGHEÄ ÑOÀNG NAI
36
S: 02-2024
còn nguồn d liệu nghiên cứu giá cho các
nhà phân tích nhu cầu xu hướng khách hàng, thị
trường,.... thể nói dữ liu sở để doanh
nghip ci thin hoạt động kinh doanh liên tục
của mình.
Song hành với hoạt động xây dựng kho d
liu, hoạt động m rng kho d liệu cũng cùng
cn thiết. Trong quá trình vận hành hằng ngày,
nhu cu của khách hàng thay đổi, mục tiêu của t
chức thay đổi, do vậy các dữ liu thu thập, lưu trữ
trong doanh nghiệp cũng thay đổi theo thi gian.
Vy vic m rng kho d liu s giúp các tổ
chc, doanh nghiệp tăng đ ph d liệu, tăng
chiều sâu thông tin hỗ tr ra quyết định trong
quản điều hành và kinh doanh tốt hơn, to li
thế cnh tranh ca doanh nghiệp. Để giúp các tổ
chc, doanh nghip nhn thc tốt hơn v tm
quan trng ca d liệu, cơ sở cũng như phương
pháp thực hiện xây dựng và mở rng kho d liu,
các nội dung: (1) gii thiệu thuyết v kho d
liệu và mở rng kho d liu; (2) nhu cu m rng
kho d liu ca t chc doanh nghiệp; (3) các
nhóm giải pháp mở rng kho d liu s đưc
trình bày chi tiết các phần dưới đây.
2. TNG QUAN V KHO D LIU
2.1. Khái niệm kho d liu
Kho d liệu (Data Warehouse) là nơi lưu trữ
d liệu trung tâm được trích xuất t c cơ sở d
liu lch s hoc t sở d liu vận hành. Dữ
liu trong kho d liệu hướng ch đề, không
thay đổi và mang nh lịch sử. Vì vậy kho d liu
xu hướng chứa các tập d liu cc
ln.[Ponniah, 2012]
Mục tiêu chính của kho d liệu cung cấp
mt ngun d liu chất lượng hiu qu cho
việc phân tích kinh doanh, báo cáo, hỗ tr ra
quyết định.
2.2. Kiến trúc kho dữ liu
Kiến trúc của kho d liệu th được thiết
kế vi nhiu tầng khác nhau, nhưng một trong
nhng kiến trúc phổ biến nhất là kiến trúc 3 tầng
(hoc 3 lp) [Ponniah, 2012]:
Hình 1. Kiến trúc kho dữ liu
Ngun: [Ponniah, 2012]
Tng Thu thp d liu (Data cquisition
Layer): Ti tầng này, dữ liệu được thu thập
chun b để lưu trữ trong kho d liu. H thng
thc hin thu thp d liu t các nguồn khác
nhau, bao gm d liu ni b (các sở d liu
tác nghiệp, d liu t các ng dng, d liệu báo
cáo tổng hợp, các hệ thng camera giám sát, cảm
biến IoT,…), và các nguồn khác từ bên ngoài.
Tầng Lưu trữ d diu (Data Storage Layer):
D liệu sau khi đã đưc thu thập chuẩn b
tng thu thp d liệu được đưa vào lưu trữ. Tng
này là nơi lưu trữ tt c thông tin thu thp t các
ngun d liệu khác nhau. Bên cạnh nhng d liu
được lưu tr tp trung trong kho d liệu, tùy theo
t chc, doanh nghip d liệu cũng thể được
trích xuất, biến đổi, x lưu trữ trong các kho
d liệu con ( data mart) để phc v những yêu
cu nghip v chuyên bit (chng hn data mart
phc v cho kinh doanh, data mart cho tiếp th,
data marts cho quản lý quan hệ khách hàng,…).
Tầng Phân tích báo cáo (Data Analysis
and Reporting Layer): Tầng này cung cấp kh
năng truy vấn, phân tích, trích xuất thông tin
37
TAÏP CHÍ KHOA HOÏC VAØ COÂNG NGHEÄ ÑAÏI HOÏC COÂNG NGHEÄ ÑOÀNG NAI
S: 02-2024
t kho d liệu để h tr quyết định quản lý, kinh
doanh.
2.3. Các hoạt động chính trong kho dữ liu
Kho d liu (Data Warehouse) thc hin
nhiu hoạt động để cung cấp thông tin hữu ích
cho t chức và quyết định kinh doanh.
Hình 2. Lung d liu trong kho
Ngun: [Ponniah, 2012]
Các hoạt động quan trng ca kho d liu
(Ponniah, 2012) bao gm:
Thu thp d liu: Kho d liu thu thp d
liu t nhiu nguồn khác nhau, bao gồm các hệ
thng ni b bên ngoài của t chc. D liu
th bao gm d liu t các hệ thng giao dch,
d liu t mạng hội, nhiều ngun d liu
khác.
Tích hợp d liu: Kho d liệu ch hợp d
liu t các nguồn khác nhau thành một sở d
liệu đồng nhnhất. Quá trình này bao gồm làm
sch, chuyển đổi, và kết ni d liệu đ đảm bo
tính nhất quán và đúng định dng.
Lưu trữ d liu: D liệu sau khi được tích
hợp được lưu trữ trong kho d liu. Kho d liu
thường s dụng các hệ qun tr sở d liu
(DBMS) để x lý, lưu trữ và quản lý dữ liu.
Tối ưu hóa dữ liệu cho phân tích: D liu
trong kho d liệu được ti ưu hóa để phc v cho
các hoạt động phân tích, bao gồm vic tạo các chỉ
s, t chc d liệu theo cách tối ưu cho tốc đ
truy vấn, và đm bo rng d liệu được cp nht
định k.
Phân tích dữ liu: Người dùng cuối các
công cụ phân tích dữ liu truy cp kho d liệu để
tạo ra các báo cáo, biểu đồ, và phân tích dữ liu.
Quá trình này giúp tổ chc hiểu hơn về hot
động ca họ, xu hướng, và cơ hội.
Bo mật quản quyền truy cp: Kho d
liu phải đảm bo rng d liệu được bo mật
ch được truy cp bi những người có quyền. Nó
cũng quản quyền truy cp theo dõi hoạt
động của người dùng để đảm bảo tính an toàn.
Sao lưu phục hi: Kho d liệu thường
thc hiện quá trình sao lưu định k để đảm bo
d liệu không bị mt. Nếu xy ra s cố, cũng
cung cp kh năng phục hi d liu.
Quản lý hiu sut: Kho d liu cần theo dõi
và quản lý hiệu suất để đảm bo rng truy vấn
phân tích dữ liu din ra một cách hiệu qu
không gây quá tải cho h thng.
2.4. Các phương pháp tiếp cận xây dựng m
rng kho d liu
Mi d án kho dữ liu, vi những đặc điểm
khác nhau về nghip v, môi trường, quy mô,
nhân sự, ... s cách tiếp cận riêng. Phần dưới
đây trình bày hai phương pháp tiếp cận điển hình
trong xây dng, m rng kho d liu.
2.4.1. Phương pháp tiếp cn ca Inmon
Đặc điểm cách tiếp cn
Inmon [William H. Inmon, 2008], [Inmon,
2005] s dụng cách tiếp cn t trên xuống, vi
kiến trúc tp trung (Centralized Architecture),
trong đó có một kho d liu tp trung Enterprise
Data Warehouse (EDW) làm trung tâm. Mi d
liệu được t các nguồn khác nhau tích hợp vào
kho d liu tập trung y. Inmon chú trọng đến
việc phân tích quy trình nghiệp v xây dựng
hình dữ liu dựa trên quy trình này. Dữ liu
trong kho d liệu Inmon thường được chuẩn hóa
để đảm bảo tính nhất quán.
Xây dựng kho d liu
TAÏP CHÍ KHOA HOÏC VAØ COÂNG NGHEÄ ÑAÏI HOÏC COÂNG NGHEÄ ÑOÀNG NAI
38
S: 02-2024
Hình 3. Lung d liu trong kho Immon
Phương pháp Inmon phù hợp với các tổ chc
nhu cầu tích hợp phân tích dữ liu phc tp,
và họ thường ưu tiên tính nhất quán và khả năng
m rng ca h thng d liu.
2.4.2. Phương pháp tiếp cn ca Kimball
Đặc điểm cách tiếp cn
Kimball tiếp cn t dưới lên (Bottom-Up
Approach), s dng kiến trúc phân tán, trong đó
d liệu được lưu tr trong các kho dữ liu con
(data mart) riêng biệt cho từng phòng ban hoặc
ngun d liu c th. Bt đầu t việc xây dựng
các data mart riêng rẽ, các data mart này sau đó
được tích hợp đ tạo thành kho dữ liệu toàn cục.
D liệu trong data mart Kimball thường được
thiết kế để tối ưu hóa hiu sut truy vn ch
không ưu tiên tính chuẩn hóa của d liu
Xây dựng kho d liu
Phương pháp xây dựng kho d liu theo tiếp
cn của Ralph Kimball, là mt tiếp cận phân tán
dựa trên việc xây dựng các data mart đc lập và
tập trung vào việc cung cấp giá trị nhanh chóng
cho người dùng cuối. Dưới đây tả cách xây
dng kho d liệu theo phương pháp Kimball:
Hình 4. Lung d liu trong kho Kimball
Phương pháp Kimball thích hợp cho các dự
án sự ưu tiên về vic cung cấp giá trị nhanh
chóng cho người dùng cuối và tập trung vào việc
tối ưu hóa hiệu sut truy vấn. Nó thường được s
dụng trong các tình huống khi cn cung cấp thông
tin phân tích cho các phòng ban cụ th hoc mc
tiêu kinh doanh cụ th.
Một vài so sánh hai phương pháp tiếp cn:
Bng 1. Bảng so sánh hai phương pháp Inmon
và Kimball
Inmon
kho d liu dựa trên
Inmon th được
thiết lp nhanh
chóng lâu hơn
Vic bảo trì kho d
liu khó khăn dễ
dàng.
Chi phí ban đầu cao,
nhưng chi phí phát
trin d án sau đó sẽ
thấp hơn.
Yêu cầu nhóm
chuyên gia thc
hin
Kho d liu tích hợp
d liệu trên toàn
doanh nghip
Tuân theo cách tiếp
cn t trên xuống.
Khi xây dựng kho d liu, vic la chn gia
phương pháp Inmon và Kimball phụ thuộc vào
nhiu yếu t như: tổ chức, yêu cầu kinh doanh,
39
TAÏP CHÍ KHOA HOÏC VAØ COÂNG NGHEÄ ÑAÏI HOÏC COÂNG NGHEÄ ÑOÀNG NAI
S: 02-2024
mục tiêu cụ thể. Phương pháp Inmon thường
thích hợp cho các tổ chc ln vi nhu cầu tích
hợp phân tích dữ liu phc tạp. Phương pháp
Kimball thường phù hợp với các dự án tp trung
vào việc cung cấp giá trị nhanh chóng cho người
dùng cuối thông qua các data mart c th. Trong
mt s trường hp, vic kết hp c hai phương
pháp có thể là lựa chn tt.
3. M RNG KHO D LIU TRONG T
CHC, DOANH NGHIP
3.1. M rng kho d liu
Sau mt thời gian được xây dựng, kho d
liệu được đưa vào vận hành khai thác. Trong
quá trình này, hoạt động quản điều hành, các
hoạt động nghip vụ, các nhu cầu phân tích dữ
liệu thể thay đổi hoặc phát sinh mới. Đến khi
kho d liu hin tại không còn đáp ứng đủ các
nhu cầu lưu trữ, phân ch x dữ liu ca
doanh nghip nữa thì kho d liu s cần được
nâng cấp, m rng.
M rng kho d liệu quá trình tăng khả
năng của kho d liệu đ thể x lưu trữ
thêm dữ liu hoặc để đáp ứng nhu cu nghip v
mi hoặc tăng cường hiu sut x dữ liu. Nhu
cu m rng kho d liu phát sinh khi tổ chc
phải đối mt vi d liệu ngày càng lớn hoc nhu
cầu người dùng cuối đòi hỏi mt h thng mnh
m hơn. Có nhiều phương pháp mở rng kho d
liệu, dưới đây một s phương pháp m rng
kho d liệu, tùy theo thực trạng, bối cnh c
th tổ chc, doanh nghip s chọn phương án
phù hợp để thc hin:
M rộng dung lượng lưu trữ: Đơn giản nht,
ta th m rộng dung lượng lưu trữ ca h
thng kho d liu bằng cách thêm thiết b phn
cng ( cng hoc b nhớ) vào hệ thng hiện có.
Điều này giúp kho dữ liu có thể lưu trữ thêm dữ
liệu mà không cần thay đổi kiến trúc tổng th.
Tăng hiệu năng xử lý: Nâng cấp các thành
phn phn cng, chng hạn như bộ vi x
(CPU), b nh RAM, hoc h thống lưu trữ SSD,
thể tăng hiệu năng x của kho d liệu
giúp xử các truy vấn phân ch nhanh
hơn.
Mô hình dữ liệu phân mảng (Thêm vùng d
liệu chuyên đề): Tạo thêm các data mart để phân
tách dữ liệu phân tải công việc x dữ liu.
hình này giúp giảm áp lực trên kho d liu
chính tạo điều kin thun li cho tối ưu hóa
hiu sut.
M rộng tích hp ngun d liu: Thêm nhiều
ngun d liu khác nhau để thêm thông tin
mới và đa dạng hóa giàu dữ d liu trong kho
d liệu. Điều này thể bao gồm tích hợp d liu
t các nguồn phi cấu trúc, dữ liu thi gian thc,
hoặc các nguồn d liệu bên ngoài tổ chc. M
rng ngun d liệu giúp đáp ứng được các nhu
cầu phân tích dữ liu mới (mà hin tại chưa thực
hiện được do chưa có dữ liu).
S dụng các công cụ tối ưu hóa d liu (Data
Optimization Tools): Các công cụ tối ưu hóa dữ
liệu thể giúp nén, tổ chc lại, làm sch d
liệu để tiết kiệm không gian lưu tr tăng tốc
truy vn.
S dụng s h tầng đám mây (Cloud
Infrastructure): Chuyn kho d liệu lên môi
trường đám mây thể giúp mở rng một cách
d dàng dựa trên nhu cầu. Các dịch v đám mây
cho kh năng mở rộng và có tính linh hoạt cao.
S dng cơ sở h tầng như một dch v
(Infrastructure as a Service - IaaS): Doanh
nghiệp có thể thuê dch v kho d liệu và các cơ
s h tầng tính toán liên quan (máy chủ, không
gian lưu trữ,…) từ nhà cung cấp dch v. S dng
IaaS cho phép mở rng h tầng lưu tr xử
mà không cần đầu tư vào phần cng c th.
S dụng cơ s d liệu phân tán (Distributed
Database): Xây dựng h thng kho d liu s
dụng sở d liệu phân tán để chia s khối lượng
công việc và tối ưu hóa khả năng chịu ti.
Khi m rng kho d liu, quan trọng là xem
xét các yêu cầu c th ca doanh nghiệp và đm
bo rng vic m rộng được thc hin một cách
hiu qu bền vững. Điều này bao gồm vic
đánh giá kiến trúc, dự đoán tăng trưởng, lựa