TIÊU CHUẨN QUỐC GIA
TCVN 14466:2025
ITU-T Y.3601 (5/2018)
DỮ LIỆU LỚN - KHUNG VÀ YÊU CẦU TRAO ĐỔI DỮ LIỆU
Big data - Framework and requirements for data exchange
Nội dung
Lời nói đầu
1 Phạm vi áp dụng
2 Tài liệu viện dẫn
3 Thuật ngữ và định nghĩa
3.1 Các thuật ngữ được định nghĩa trong tài liệu khác
3.2 Các thuật ngữ được định nghĩa trong tiêu chuẩn này
4 Viết tắt và từ viết tắt
5 Quy ước
6 Tổng quan về trao đổi dữ liệu lớn
6.1 Những thách thức và lợi ích của trao đổi dữ liệu lớn
6.2 Khái niệm chung về trao đổi dữ liệu lớn
7 Khung trao đổi dữ liệu lớn
7.1 Mô hình trao đổi dữ liệu lớn
7.2 Mở rộng hoạt động của các vai trò dữ liệu lớn để trao đổi dữ liệu lớn
8 Yêu cầu chức năng của trao đổi dữ liệu lớn
8.1 Yêu cầu về đăng ký và lập danh mục dữ liệu
8.2 Yêu cầu để truy lục dữ liệu
8.3 Yêu cầu về việc chuyển giao dữ liệu
8.4 Yêu cầu về hỗ trợ khách hàng
8.5 Yêu cầu về quản lý chất lượng dữ liệu
8.6 Yêu cầu về quản lý quyền dữ liệu
8.7 Yêu cầu quản lý thông tin cá nhân
9 Xem xét về an ninh
Phụ lục A (tham khảo) Quy trình chung đối với trao đổi dữ liệu
Phụ lục B (tham khảo) Các trường hợp sử dụng trao đổi dữ liệu lớn
Lời nói đầu
TCVN 14466:2025 hoàn toàn tương đương với ITU-T Y.3601 (5/2018).
TCVN 14466:2025 do Ban kỹ thuật tiêu chuẩn quốc gia TCVN/JTC 1 “Công nghệ thông tin” biên
soạn, Viện Tiêu chuẩn Chất lượng Việt Nam đề nghị, Ủy ban Tiêu chuẩn Đo lường Chất lượng
quốc gia thẩm định, Bộ Khoa học và Công nghệ công bố.
DỮ LIỆU LỚN - KHUNG VÀ YÊU CẦU TRAO ĐỔI DỮ LIỆU
Big data - Framework and requirements for data exchange
1 Phạm vi áp dụng
Tiêu chuẩn này quy định khung và các yêu cầu để trao đổi dữ liệu trong hệ sinh thái dữ liệu lớn.
Tiêu chuẩn này xác định các khái niệm, mô hình, hoạt động và yêu cầu chức năng chung dựa
trên hệ sinh thái dữ liệu lớn và các khả năng được xác định trong [ITU-T Y.3600]. Các yêu cầu
chức năng được cung cấp trong tiêu chuẩn này được lấy từ các trường hợp sử dụng.
2 Tài liệu viện dẫn
Các tài liệu viện dẫn dưới đây là cần thiết cho việc áp dụng tiêu chuẩn này. Đối với các tài liệu
ghi năm công bố thì áp dụng phiên bản được nêu. Đối với các tài liệu không ghi năm công bố t
áp dụng phiên bản mới nhất, bao gồm cả các sửa đổi, bổ sung (nếu có).
[ITU-T Y.3600] Khuyến nghị ITU-T Y.3600 (2015), Big data - Cloud computing based
requirements and capabilities (Dữ liệu lớn - Các yêu cầu và khả năng dựa trên tính toán đám
mây).
3 Thuật ngữ và định nghĩa
3.1 Các thuật ngữ được định nghĩa trong tiêu chuẩn khác
Tiêu chuẩn này sử dụng các thuật ngữ được định nghĩa ở tiêu chuẩn khác như sau:
3.1.1
Hoạt động (activity)
Một hành động thực hiện hoặc một tập các tác vụ cụ thể.
[Nguồn b-ITU Y.3502]
3.1.2
Dữ liệu lớn (big data)
Một mô hình cho phép thu thập, lưu trữ, quản lý, phân tích và trực quan hóa, có khả năng theo
những hạn chế thời gian thực, của các bộ dữ liệu mở rộng với các đặc điểm không đồng nhất.
CHÚ THÍCH Các ví dụ về đặc điểm của bộ dữ liệu bao gồm khối lượng lớn, tốc độ cao, tính đa
dạng cao, v.v...
[Nguồn ITU-T Y.3600]
3.1.3
Siêu dữ liệu (metadata)[1][1]
Dữ liệu về dữ liệu hoặc các phần tử dữ liệu, có thể bao gồm các mô tả dữ liệu và dữ liệu về
quyền sở hữu dữ liệu, đường dẫn truy cập, quyền truy cập và tính biến động dữ liệu.
[Nguồn b-ISO/IEC 2382]
3.1.4
Vai trò (role)
Một tập các hoạt động phục vụ cho một mục đích chung.
[Nguồn b-ITU Y.3502]
3.1.5
Vai trò con (sub-role)
[1][1] Trong một số TCVN, siêu dữ liệu được gọi là dữ liệu đặc tả
Một tập con các hoạt động của một vai trò nhất định.
[Nguồn b-ITU Y.3502]
3.2 Các thuật ngữ được định nghĩa trong tiêu chuẩn này
Tiêu chuẩn này định nghĩa các thuật ngữ sau:
3.2.1
Trao đổi dữ liệu lớn (big data exchange)
Nhiều quá trình bao gồm trích nhập dữ liệu và trích xuất dữ liệu trong hệ sinh thái dữ liệu lớn.
CHÚ THÍCH Hệ sinh thái dữ liệu lớn xác định các hoạt động cần thiết cho các vai trò cung cấp và
sử dụng dịch vụ dữ liệu lớn cũng như mối quan hệ giữa các vai trò (xem [ITU-T Y.3600]).
3.2.2
Danh mục dữ liệu (data catalogue)
Danh sách tất cả siêu dữ liệu mà bên môi giới dữ liệu cung cấp.
3.2.3
Trích xuất dữ liệu (data export)
Một quá trình cung cấp dữ liệu.
3.2.4
Trích nhập dữ liệu (data import)
Một quá trình tiếp nhận dữ liệu.
3.2.5
Thực thể (entity)
Một nhóm các vai trò dữ liệu lớn và các vai trò con mà bên liên quan có thể đảm nhiệm.
3.2.6
Dữ liệu đã xử lý (processed data)
Dữ liệu được tạo ra bằng các bước xử lý trong hệ sinh thái dữ liệu lớn.
CHÚ THÍCH Các bước xử lý bao gồm thu thập dữ liệu, chuẩn bị dữ liệu, trực quan hóa dữ liệu và
phân tích dữ liệu.
3.2.7
Dữ liệu thô (raw data)
Dữ liệu từ nguồn dữ liệu mà không có bất kỳ thay đổi nào.
CHÚ THÍCH Dữ liệu thô còn được gọi là dữ liệu chưa xử lý.
3.2.8
Danh mục dịch vụ (service catalogue)
Danh sách tất cả các dịch vụ dữ liệu lớn của một bên cung cấp dịch vụ dữ liệu lớn cụ thể.
4 Chữ viết tắt
Tiêu chuẩn này sử dụng các chữ viết tắt sau:
API Application Programming Interface Giao diện lập trình ứng dụng
BDC Big Data sen/ice Customer Khách hàng dịch vụ dữ liệu lớn
BDSP Big Data Service Provider Bên cung cấp dịch vụ dữ liệu lớn
DP Data Provider Bên cung cấp dữ liệu
5 Quy ước
Trong tiêu chuẩn này:
Từ khóa “được yêu cầu" chỉ ra yêu cầu bắt buộc phải tuân thủ nghiêm ngặt và không được
phép sai lệch nếu muốn tuyên bố tuân thủ tiêu chuẩn này.
Từ khóa "được khuyến nghị" chỉ ra yêu cầu được khuyến nghị nhưng không hoàn toàn bắt
buộc. Do đó, yêu cầu này không cần phải có để tuyên bố sự phù hợp.
Từ khóa "có thể tùy chọn" chỉ ra yêu cầu tùy chọn được phép, mà không ngụ ý bất kỳ ý nghĩa
nào được khuyến nghị. Thuật ngữ này không hàm ý việc triển khai của bên cung cấp phải cung
cấp tùy chọn và tính năng có thể tùy chọn được nhà điều hành mạng/bên cung cấp dịch vụ cho
phép. Thay vào đó, nó mang nghĩa bên cung cấp có thể tùy chọn cung cấp tính năng và vẫn
tuyên bố tuân thủ thông số kỹ thuật.
Trong nội dung của tiêu chuẩn này, các từ phải, không được, nên, và có thể đôi khi xuất hiện,
trong trường hợp đó chúng được hiểu theo thứ tự là bắt buộc, bị cấm, được khuyến nghị và có
thể tùy chọn. Sự xuất hiện của các cụm từ hoặc từ khóa như vậy trong phần phụ lục hoặc trong
tài liệu được đánh dấu rõ ràng là mang tính thông tin được hiểu là không mang ý là chuẩn mực.
6 Tổng quan về trao đổi dữ liệu lớn
Trao đổi dữ liệu là một quá trình về:
- nhận dữ liệu nguồn theo lược đồ nguồn từ một nguồn dữ liệu;
- chuyển đổi dữ liệu nguồn đã nhận thành dữ liệu đích theo lược đồ đích mà không làm thay đổi
cách biểu diễn dữ liệu nguồn; và
- bàn giao dữ liệu đích cho đích dữ liệu.
Phụ lục A cung cấp góc nhìn về quá trình trao đổi dữ liệu giữa hai hệ thống.
Khi áp dụng vào hệ sinh thái dữ liệu lớn, trao đổi dữ liệu thường liên quan đến trao đổi dữ liệu
giữa các nguồn dữ liệu khác nhau (ví dụ: bên cung cấp dữ liệu) và đích dữ liệu (ví dụ: khách
hàng dịch vụ dữ liệu lớn).
Thuật ngữ "trao đổi dữ liệu lớn" được sử dụng để chỉ "trao đổi dữ liệu" trong hệ sinh thái dữ liệu
lớn. Trao đổi dữ liệu lớn liên quan đến nhiều quá trình bao gồm trích nhập dữ liệu và trích xuất
dữ liệu. Trao đổi dữ liệu lớn cho phép trao đổi dữ liệu ở nhiều loại và nhiều định dạng từ một
nguồn dữ liệu đến một đích dữ liệu. Các đặc điểm của dữ liệu trao đổi như sau:
- các loại dữ liệu trao đổi bao gồm dữ liệu có cấu trúc, dữ liệu bán cấu trúc và dữ liệu phi cấu
trúc;
- các định dạng dữ liệu trao đổi bao gồm văn bản, bảng tính, video, âm thanh, hình ảnh, vị trí địa
lý, bản đồ và sự kết hợp của các định dạng đã đề cập ở trên (chẳng hạn như tài liệu web, dữ liệu
cảm biến, phát trực tuyến phương tiện);
- dữ liệu trao đổi được phân loại thành dữ liệu thô (tức là dữ liệu chưa xử lý) và dữ liệu đã xử lý.
6.1 Những thách thức và lợi ích của trao đổi dữ liệu lớn
Những thách thức sau đây cần được xem xét khi trao đổi dữ liệu lớn:
- nhiều nguồn, loại và định dạng dữ liệu khác nhau: các bên cung cấp dịch vụ dữ liệu lớn
phải xử lý nhiều khía cạnh khác nhau của dữ liệu và nguồn dữ liệu trong quá trình thu thập, lưu
trữ và tích hợp dữ liệu;
- lược đồ đọc: thông thường dữ liệu lớn được lưu trữ ở định dạng thô, nhưng sau khi dữ liệu
được phát hiện và thu thập, được chuyển đổi để đáp ứng các yêu cầu của ứng dụng;
- Thiếu nhận thức về dữ liệu phù hợp/Sự sử dụng dữ liệu không có ràng buộc: đôi khi,
khách hàng dịch vụ dữ liệu lớn không nhận ra loại dữ liệu nào thực sự cần thiết do sử dụng dữ
liệu không bị hạn chế trong hệ sinh thái dữ liệu lớn. Do đó, bên cung ứng dữ liệu hoặc bên cung
cấp dịch vụ dữ liệu lớn nên cung ứng dữ liệu với cách sử dụng của họ để khách hàng dịch vụ d
liệu lớn lựa chọn dữ liệu hữu ích để giải quyết vấn đề của họ.
Trao đổi dữ liệu trong hệ sinh thái dữ liệu lớn dự kiến sẽ mang lại những lợi ích sau:
- giảm thiểu tình trạng phân mảnh trong hệ sinh thái thông qua việc chia sẻ tốt hơn dữ liệu đa
dạng giữa các bên liên quan;
- thương mại hóa dữ liệu cho phép các bên tạo ra doanh thu tốt hơn từ khối lượng lớn dữ liệu
được trao đổi trong hệ sinh thái;
- tính mở của dữ liệu sẵn có công khai đóng góp cho xã hội loài người và cốc hoạt động kinh
tế;
- tạo điều kiện cho sự xuất hiện của các mô hình kinh doanh mới và hiệu quả;
- sự liên kết nối dữ liệu có giá trị, đa dạng và khối lượng lớn đóng góp nhiều hơn cho xã hội
loài người và các hoạt động kinh tế.
6.2 Khái niệm chung về trao đổi dữ liệu lớn
Hình 6.1 minh họa mô hình gốc trao đổi dữ liệu lớn. Trong mô hình này, các nguyên tắc sau
được áp dụng:
- nguồn dữ liệu và đích dữ liệu giao tiếp với nhau thông qua "trao đổi dữ liệu". Thông qua đó
(minh họa bằng mũi tên màu đen trong Hình 6.1), dữ liệu được trao đổi từ nguồn dữ liệu đến
đích dữ liệu. Trong quá trình trao đổi dữ liệu này, có thể thực hiện xử lý dữ liệu;
- nguồn dữ liệu là một thực thể thu thập các bộ dữ liệu (bao gồm dữ liệu thô hoặc dữ liệu đã xử
lý) hoặc đầu ra dịch vụ dữ liệu lớn và trích xuất đến đích dữ liệu;
- trong mối quan hệ, đích dữ liệu là một thực thể trích nhập bộ dữ liệu (bao gồm dữ liệu thô hoặc
dữ liệu đã xử lý) hoặc đầu ra dịch vụ dữ liệu lớn từ nguồn dữ liệu. Việc trích xuất dữ liệu từ
nguồn dữ liệu được kích hoạt bởi chính nguồn dữ liệu lớn hoặc bởi yêu cầu khởi tạo nhận được
từ đích dữ liệu.
Hình 6.1 - Mô hình gốc của trao đổi dữ liệu lớn
Các mô hình trao đổi dữ liệu lớn xuất phát từ sự kết hợp của mô hình gốc. Hình 6.2 minh họa hai
dạng mẫu chính:
- dạng mẫu trao đổi trực tiếp: trao đổi dữ liệu trực tiếp từ nguồn dữ liệu ngang hàng đến đích
dữ liệu ngang hàng (xem Điều 7.1.1):
- dạng mẫu trao đổi trung gian: trao đổi dữ liệu gián tiếp thông qua tác nhân kiểm soát và xử lý
dữ liệu trung gian (ví dụ: bên trung gian) (xem Điều 7.1.2).