
Định nghĩa dữ liệu lớn
Dữ liệu lớn (Big data) được định nghĩa khái quát là sự thu thập, quản lý và phân
tích dữ liệu, những việc đó đã vượt xa dữ liệu cấu trúc tiêu biểu (typical), nó có thể
được truy vấn với hệ thống quản lý dữ liệu quan hệ — thường với những tệp phi
cấu trúc (unstructured files), video kỹ thuật số, hình ảnh, dữ liệu cảm biến, tệp lưu
nhật ký, thực sự bất cứ dữ liệu nào không có trong hồ sơ với các phạm vi tìm kiếm
khác. Trong một số ý nghĩa, dữ liệu phi cấu trúc là dữ liệu thú vị, nhưng nó khó
tổng hợp vào BI (Business Intelligence) hoặc rút trích ra những kết luận từ nó trừ
khi nó có thể tương quan với dữ liệu có cấu trúc.
Dữ liệu lớn cũng có những nguồn mới, như trong máy tính (vd: các file log nhật ký
hay mạng cảm biến), trong thiết bị di động (video, hình ảnh, tin nhắn), và trong các
thiết bị máy móc kết nối với nhau (vd như xe, máy bay hoặc các thiết bị giám sát
từ xa) nhằm mục đích lên kế hoạch bảo trì kịp thời. Có nột cách để làm được việc
này là dựa vào đặc tính volume (khối lượng). IBM ước lượng, có 2.5 nhân 10 mũ
18 bytes (2,500,000,000,000,000,000) dữ liệu được tạo ra mỗi ngày (xem phần Tài
nguyên). Đặc điểm tiếp theo là velocity (tốc độ), nơi có tỷ lệ dữ liệu được gia tăng
bởi vì băng thông mạng — điển hình như tỷ lệ gigabit ngày nay (gigE, 10G, 40G,
100G) được so sánh với tỷ lệ megabit. Một đặc điểm khác là variety (tính đa
dạng), bao gồm nhiều kiểu dữ liệu phi cấu trúc, như dòng hình ảnh kỹ thuật số