
1. Lập chỉ mục chung theo thời gian thực cho các dữ liệu máy bất kỳ
Đây là cốt lõi của dữ liệu lớn như hầu hết mọi người nghĩ về nó; nó thường được
đánh đồng với các dự án nguồn mở Hadoop (xem Tài nguyên). Đừng nhầm lẫn
giữa lập bảng chú dẫn trong Hadoop với một bảng chú dẫn trong cơ sở dữ liệu
quan hệ: Một chỉ số Hadoop là một chỉ số tập tin. Bằng cách này, Hadoop có thể
tiêu thụ nhiều loại dữ liệu khác nhau.
Hiện tại, các công ty có thể bị tràn ngập nguồn cấp dữ liệu từ tần số RFID (Radio
Frequency Identification - nhận dạng bằng sóng vô tuyến) lưu động, nhấp chuột
trang web, và các dữ liệu khác có thể được cấu trúc nếu dân CNTT dành thời gian
để làm cho nó thành dữ liệu cấu trúc và đặt nó trong một cơ sở dữ liệu quan hệ. Đó
có thể là giá trị đầu tư nếu bạn biết cách dữ liệu sẽ được sử dụng và cách nó sẽ
được truy vấn và truy cập trong tương lai.
Không cần phải biết tiềm năng sử dụng trong tương lai của dữ liệu mà Hadoop
cung cấp ra. Bằng cách lấy dữ liệu ngay lúc nó vừa đi vào, Big Data sẽ qua mặt
bước xác định dữ liệu cho đến sau này, khi việc phân tích được tiến hành. Hadoop
phân phối dữ liệu qua nhiều máy chủ và theo dõi những địa điểm mà không hạn
chế sử dụng trong tương lai.