TIÊU CHUẨN QUỐC GIA
TCVN 14667:2025
ITU-T Y.3605 (9/2020)
DỮ LIỆU LỚN - KIẾN TRÚC THAM CHIẾU
Big data - Reference architecture
Nội dung
Lời nói đầu
1 Phạm vi áp dụng
2 Tài liệu viện dẫn
3 Thuật ngữ và định nghĩa
3.1 Các thuật ngữ được định nghĩa trong tài liệu khác
3.2 Các thuật ngữ được định nghĩa trong tiêu chuẩn này
4 Thuật ngữ và từ viết tắt
5 Quy ước
6 Khái niệm kiến trúc tham chiếu
6.1 Góc nhìn kiến trúc BDRA
6.2 Mối quan hệ giữa góc nhìn người dùng và góc nhìn chức năng
7 Góc nhìn người dùng
8 Góc nhìn chức năng
8.1 Khung phân tầng cho dữ liệu lớn
8.2 Các cấu phần chức năng
9 Các khía cạnh xuyên suốt
9.1 Sự dư thừa dữ liệu
9.2 Hiệu năng
9.3 Chất lượng dữ liệu
10 Xem xét về an toàn
Lời nói đầu
TCVN 14667:2025 hoàn toàn tương đương với ITU-T Y.3S05 (9/2020).
TCVN 14667:2025 do Ban kỹ thuật tiêu chuẩn quốc gia TCVN/JTC 1 “Công nghệ thông tin” biên soạn,
Viện Tiêu chuẩn Chất lượng Việt Nam đề nghị, Ủy ban Tiêu chuẩn Đo lường Chất lượng quốc gia
thẩm định, Bộ Khoa học và Công nghệ công bố.
DỮ LIỆU LỚN - KIẾN TRÚC THAM CHIẾU
Big data - Reference architecture
1 Phạm vi áp dụng
Tiêu chuẩn này quy định kiến trúc tham chiếu dữ liệu lớn (BDRA). Tiêu chuẩn này cung cấp mô tả về
các khái niệm kiến trúc tham chiếu, góc nhìn người dùng, góc nhìn chức năng và các khía cạnh xuyên
suốt.
2 Tài liệu viện dẫn
Các tài liệu viện dẫn dưới đây là cần thiết cho việc áp dụng tiêu chuẩn này. Đối với các tài liệu ghi
năm công bố thì áp dụng phiên bản được nêu. Đối với các tài liệu không ghi năm công bố thì áp dụng,
phiên bản mới nhất, bao gồm cả các sửa đổi, bổ sung (nếu có).
TCVN 12481:2019 (ISO/IEC 17789:2014), Công nghệ thông tin-Tính toán đám mây - Kiến trúc tham
chiếu;
ITU-T Y.3519 (2018), Cloud computing - functional architecture of big data as a service (Tính toán
đám mây - kiến trúc chức năng của dữ liệu lớn dưới dạng dịch vụ);
ITU-T Y.3600 (2015), Big data - cloud computing based requirements and capabilities (Dữ liệu lớn -
các yêu cầu và khả năng dựa trên tính toán đám mây);
ITU-T Y.3601 (2018), Big data - framework and requirements for data exchange (Dữ liệu lớn - khung
và yêu cầu trao đổi dữ liệu);
ITU-T Y.3603 (2019), Big data - requirements and conceptual model of metadata for data catalogue
(Dữ liệu lớn - yêu cầu và mô hình khái niệm về siêu dữ liệu cho danh mục dữ liệu);
[ITU-T Y.3604 (2020), Big data - overview and requirements for data preservation (Dữ liệu lớn - tổng
quan và yêu cầu về bảo quản dữ liệu).
3 Thuật ngữ và định nghĩa
3.1 Các thuật ngữ được định nghĩa trong tiêu chuẩn khác
Tiêu chuẩn này sử dụng các thuật ngữ được định nghĩa trong tiêu chuẩn khác như sau:
3.1.1
Hoạt động (activity)
Một hành động thực hiện hoặc một tập các tác vụ cụ thể.
[Nguồn ITU-T Y.3502]
3.1.2
Dữ liệu lớn (big data)
Một mô hình cho phép thu thập, lưu trữ, quản lý, phân tích và trực quan hóa, có khả năng theo những
hạn chế thời gian thực, của các bộ dữ liệu mở rộng với các đặc điểm không đồng nhất.
CHÚ THÍCH Các ví dụ về đặc điểm của bộ dữ liệu bao gồm khối lượng lớn, tốc độ cao, tính đa dạng
cao, v.v...
[Nguồn ITU-T Y.3600]
3.1.3
Nguồn gốc dữ liệu lớn (big data provenance)
Thông tin ghi lại lịch sử đường dẫn của dữ liệu theo các hoạt động vòng đời dữ liệu trong hệ sinh thái
dữ liệu lớn.
CHÚ THÍCH 1 Các hoạt động trong vòng đời dữ liệu bao gồm tạo, truyền, lưu trữ, sử dụng và xóa dữ
liệu.
CHÚ THÍCH 2 Thông tin xuất xứ cung cấp thông tin chi tiết về nguồn dữ liệu, chẳng hạn như người
chịu trách nhiệm cung cấp dữ liệu, các chức năng được áp dụng cho dữ liệu và thông tin về môi
trường máy tính để xử lý dữ liệu (ví dụ: hệ điều hành, mô tả về phần cứng, cài đặt ngôn ngữ và múi
giờ).
[Nguồn b-ITU-T Y.3602]
3.1.4
Danh mục dữ liệu (data catalogue)
Danh sách tất cả siêu dữ liệu mà bên môi giới dữ liệu cung cấp.
[Nguồn ITU-T Y.3601]
3.1.5
Cấu phần chức năng (functional component)
Khối xây dựng chức năng cần thiết để tham gia vào một hoạt động được hỗ trợ bởi một triển khai.
[Nguồn ITU-T Y.3502]
3.1.6
Siêu dữ liệu (metadata)
Dữ liệu được mã hóa, có cấu trúc mô tả các đặc tính của các thực thể mang thông tin nhằm hỗ trợ
nhận dạng, khám phá, đánh giá và quản lý các thực thể được mô tả.
[Nguồn b-ITU-T H.752]
3.1.7
Bên tham gia (party)
Cá nhân hoặc pháp nhân, có hoặc không có tư cách pháp nhân, hoặc một nhóm có cả hai.
[Nguồn b-ITU-T Y.3500]
3.1.8
Thông tin nhận dạng cá nhân (personally identifiable information)
Bất kỳ thông tin nào a) có thể được sử dụng để xác định chủ thể PII mà thông tin đó liên quan đến,
hoặc b) được hoặc có thể được liên kết trực tiếp hoặc gián tiếp với chủ thể PII.
CHÚ THÍCH Để xác định xem chủ thể PII có thể nhận dạng được hay không, cần phải tính đến tất cả
các phương tiện mà bên liên quan đến quyền riêng tư nắm giữ dữ liệu hoặc bất kỳ bên nào khác có
thể sử dụng một cách hợp lý để nhận dạng cá nhân đó.
[Nguồn b-ITU-T X.1361]
3.1.9
Nguồn gốc (provenance)
Thông tin liên quan đến bất kỳ nguồn thông tin nào bao gồm bên tham gia hoặc các bên liên quan đến
việc tạo ra thông tin đó, giới thiệu thông tin đó và/hoặc bảo lãnh cho thông tin đó.
[Nguồn b-ITU-TX. 1255]
3.1.10
Kiến trúc tham chiếu (reference architecture)
Kiến trúc cốt lõi nắm bắt thiết kế mức cao của dòng sản phẩm phần mềm và hệ thống bao gồm cấu
trúc và kết cấu kiến trúc (ví dụ: các quy tắc và ràng buộc chung) ràng buộc tất cả các sản phẩm thành
viên trong dòng sản phẩm phần mềm và hệ thống.
[Nguồn b-ISO/lEC 26550]
CHÚ THÍCH Kiến trúc ứng dụng của các sản phẩm thành viên được bao gồm trong dòng sản phẩm
tái sử dụng (có thể có sửa đổi) các phần chung và liên kết các phần biến của kiến trúc miền. Kiến trúc
ứng dụng của các sản phẩm thành viên có thể (nhưng không cần) cung cấp khả năng biến đổi.
3.1.11
Vai trò (role)
Một tập các hoạt động phục vụ cho một mục đích chung.
[Nguồn ITU-T Y.3502]
3.1.12
Vai trò con (sub-role)
Một tập con các hoạt động của một vai trò nhất định.
[Nguồn ITU-T Y.3502]
3.2 Các thuật ngữ được định nghĩa trong tiêu chuẩn này
Không có.
4 Thuật ngữ và từ viết tắt
Tiêu chuẩn này sử dụng các chữ viết tắt sau:
BDC Big Data Service Customer Khách hàng dịch vụ dữ liệu lớn
BDRA Big Data Reference Architecture Kiến trúc tham chiếu dữ liệu lớn
BDSP Big Data Service Provider Bên cung cấp dịch vụ dữ liệu lớn
ETL Extract, Transform, Load Trích xuất, Chuyển đổi, Tải
HTML Hypertext Markup Language Ngôn ngữ đánh dấu siêu văn bản
NoSQL Not Only SQL Không chỉ SQL
PII Personally Identifiable Information Thông tin nhận dạng cá nhân
SLA Service Level Agreement Thỏa thuận mức dịch vụ
XML Extensible Markup Language Ngôn ngữ đánh dấu mở rộng
5 Quy ước
Các quy ước sau đây được áp dụng:
Các sơ đồ được sử dụng trong toàn bộ Tiêu chuẩn này giúp minh họa kiến trúc tham chiếu dữ liệu lớn
(BDRA). Hình 5-1 cung cấp các quy ước được sử dụng liên quan đến nội dung của các sơ đồ.
CHÚ THÍCH Trong Hình 5-1, “khía cạnh" được hiểu là đề cập đến “Khía cạnh xuyên suốt".
Hình 5-1 - Chú thích cho các sơ đồ được sử dụng trong tiêu chuẩn này [ITU-T Y.3502]
6 Khái niệm kiến trúc tham chiếu
Điều này cung cấp tổng quan về các khái niệm kiến trúc được sử dụng trong Tiêu chuẩn này.
6.1 Góc nhìn kiến trúc BDRA
Hệ thống dữ liệu lớn có thể được mô tả bằng cách sử dụng phương pháp tiếp cận góc nhìn. Bốn góc
nhìn riêng biệt được sử dụng trong BDRA (xem Hình 6-1):
- góc nhìn người dùng;
- góc nhìn chức năng;
- góc nhìn thực hiện; và
- góc nhìn triển khai.
Hình 6-1 - Chuyển đổi giữa các góc nhìn kiến trúc [ITU-T Y.3502]
Bảng 6-1 cung cấp mô tả về từng góc nhìn này.
Bảng 6-1 - Góc nhìn BDRA
Góc nhìn của BDRA Mô tả về góc nhìn BDRA Phạm vi
Góc nhìn người dùng Hệ sinh thái, các bên tham gia, các vai trò, các vai trò con và các
hoạt động dữ liệu lớn
Trong
phạm vi
Góc nhìn chức năng Các chức năng cần thiết để hỗ trợ các hoạt động dữ liệu lớn Trong
phạm vi
Góc nhìn thực hiện Các chức năng cần thiết để triển khai dịch vụ dữ liệu lớn trong
các bộ phận dịch vụ và/hoặc các bộ phận hạ tầng
Ngoài
phạm vi
Góc nhìn triển khai Cách thức các chức năng của dịch vụ dữ liệu lớn được triển khai
về mặt kỹ thuật trong các cấu phần hạ tầng hiện có hoặc trong
các cấu phần mới sẽ được giới thiệu trong hạ tầng này
Ngoài
phạm vi
CHÚ THÍCH Chi tiết về góc nhìn người dùng được định nghĩa trong Điều 7. Điều 8 đề cập đến chi tiết
về góc nhìn chức năng. Các góc nhìn triển khai và thực hiện liên quan đến công nghệ và triển khai dữ
liệu lớn cụ thể của bên cung cấp và triển khai thực tế, và nằm ngoài phạm vi của Tiêu chuẩn này.
Hình 6-2 cho thấy sự chuyển đổi từ góc nhìn người dùng sang góc nhìn chức năng.
Hình 6-2 - Chuyển đổi từ góc nhìn người dùng sang góc nhìn chức năng [ITU-T Y.3502]
Các khía cạnh xuyên suốt là các hành vi hoặc khả năng cần được phối hợp giữa các vai trò và được
triển khai nhất quán trong một hệ thống dữ liệu lớn. Các khía cạnh xuyên suốt có thể được chia sẻ và
có thể tác động đến nhiều vai trò, hoạt động và cấu phần chức năng. Các khía cạnh xuyên suốt áp
dụng cho nhiều vai trò hoặc cấu phần chức năng riêng lẻ. Một ví dụ về khía cạnh xuyên suốt là chất
lượng dữ liệu. Mô tả về các khía cạnh xuyên suốt được cung cấp trong Điều 9.
6.2 Mối quan hệ giữa góc nhìn người dùng và góc nhìn chức năng
Hình 6-3 minh họa cách góc nhìn người dùng cung cấp tập các hoạt động được thể hiện trong góc
nhìn chức năng (và được thực hiện bằng cách sử dụng các công nghệ của góc nhìn triển khai).
Hình 6-3 - Từ góc nhìn người dùng đến góc nhìn chức năng [ITU-T Y.3502]
Tiêu chuẩn này chỉ ra góc nhìn vai trò và hoạt động trong Điều 7 và góc nhìn chức năng, bao gồm các
cấu phần chức năng kiến trúc trong Điều 8. Tiêu chuẩn mô tả trong Điều này là các mối quan hệ logic
của các vai trò và hoạt động tính toán đám mây với các cấu phần chức năng.
Tiêu chuẩn có thể liên quan đến một số mối quan hệ. Tiêu chuẩn liên quan đến một mối quan hệ
thể được sử dụng để (i) quy định mức độ luồng thông tin hoặc các loại khả năng tương tác khác;
và/hoặc (ii) đảm bảo các mức độ chất lượng được quy định (ví dụ: mức độ bảo mật hoặc dịch vụ).
Các mối quan hệ logic được xác định trong các khái niệm kiến trúc tham chiếu này là một phần quan
trọng trong việc quy định BDRA và hành vi của nó. Mối quan hệ này mô tả các vấn đề như luồng
thông tin cần thiết giữa các cấu phần chức năng trong BDRA.
CHÚ THÍCH Tham khảo góc nhìn chung chi tiết hơn về vai trò, hoạt động và cấu phần chức năng
trong [ITU-T Y.3502]
7 Góc nhìn người dùng
Điều này mô tả một môi trường, được gọi là hệ sinh thái dữ liệu lớn, với các vai trò và vai trò con. Nó
cũng xác định các hoạt động cần thiết cho các vai trò cung cấp và sử dụng các dịch vụ dữ liệu lớn
cũng như mối quan hệ giữa các vai trò.
Hệ sinh thái dữ liệu lớn bao gồm các vai trò sau: