
Mười cân nhắc dành cho giải
pháp Big Data trên đám mây

Khởi động một môi trường tiêu thụ Big Data dễ dàng hơn trong nền đám mây
Tác giả nhấn mạnh 10 yếu tố mà một công ty nên xem xét khi bắt đầu một dự án
Big Data, thậm chí một trong số đó được coi là một thử nghiệm. Giải pháp dựa trên
nền đám mây được chú trọng vì nó giải quyết được nhiều yếu tố kỹ thuật phức tạp
trong bước đầu triển khai thực hiện Big Data.
Big Data là một khái niệm trong lĩnh vực CNTT đã và đang phát triển rất nhanh và
mạnh. Như trong nhiều lĩnh vực CNTT, công nghệ mới này lần đầu tiên được sử
dụng bởi các doanh nghiệp lớn và sau đó được chấp nhận sử dụng bởi các doanh
nghiệp vừa và nhỏ. Big Data dường như là một tiến trình giống hệt ra đời sau.
Khi Big Data phát triển trong thế giới thực, nó được áp dụng cho các thành phần
dữ liệu không phải là lớn lắm. Các bộ dữ liệu thường là nhỏ bởi đa phần là do các
chuẩn mực được thực hiện bằng các công cụ khai phá Big Data theo những cách
đặc biệt dành riêng cho cấu trúc Big Data.
Thậm chí, chúng ta đều đồng ý rằng trong tương lai, dữ liệu sẽ ngày càng nhiều
hơn chứ không có chuyện ít hơn; thêm nhiều nguồn dữ liệu sẽ gửi dữ liệu vào các
doanh nghiệp và tốc độ của dòng dữ liệu sẽ chỉ tăng lên. Đây là sân chơi tương lai
của Big Data. Một câu hỏi đặt ra về sân chơi đó là nơi mà nó sẽ tồn tại — trên tiền

đề hoặc trong nền đám mây — và nhằm vào các mục đích mà bạn cần phải cân
nhắc để lựa chọn dịch vụ.
Xác định một giải pháp Big Data đám mây
Giống như hầu hết các giải pháp với đám mây, việc xác định chính xác đám mây là
gì có thể hơi khó khăn. Có nhiều đặc trưng khác nhau của đám mây tồn tại trong
không gian Big Data và chưa có một định nghĩa thống nhất chung nào (mặc dù có
một số tốt hơn so với những cái khác).
Đầu tiên, hãy bắt đầu với một trò chơi đố chữ nho nhỏ. Trạng thái của Big Data đạt
được khi khối lượng, chủng loại và tốc độ của dữ liệu vào trở nên quá nhiều đối
với cơ sở dữ liệu quan hệ hiện hành để xử lý và sử dụng trong thời gian thực. Việc
triển khai các công nghệ trong Big Data là sự nỗ lực để xử lý điều kiện đó và cung
cấp những cách thức mới để sử dụng hiệu quả các dữ liệu đó — điều đó có nghĩa là
phần cứng và cách thức mới tổ chức dữ liệu cho việc lưu trữ và đọc cấp tốc. Đây là
bản chất của Big Data.
Đó cũng là lý do tồn tại của Apache Hadoop, MapReduce, và các dự án, sản phẩm
tương tự. Môi trường Big Data dựa trên nền đám mây cần có khả năng tham khảo
dữ liệu bên ngoài, chẳng hạn như hệ thống hoạch định nguồn lực doanh nghiệp và

các cơ sở dữ liệu tiền đề khác, mà luôn định kỳ cập nhật dữ liệu mới. (Bên ngoài ở
đây có nghĩa là bên ngoài môi trường ảo Sandbox của Big Data.)
Vấn đề cần quan tâm là "lưu trữ" dữ liệu. Tiếp theo, bạn cần biết cách để phân tích
và đưa việc phân tích này đến nơi nó sẽ tác động đến quá trình kinh doanh.
Một dịch vụ Big Data cần có khả năng nhìn vào một nguồn dữ liệu đa dạng từ bên
ngoài cho đến nguồn dữ liệu chính, có khả năng bao gồm dữ liệu mới trong trung
tâm dữ liệu, chứa các thành phần dữ liệu mới chưa từng nghĩ đến, và cung cấp một
phương pháp để phân tích và báo cáo dựa trên tổng thể. Nhu cầu về tính nâng cao,
tính linh hoạt và khả năng mở rộng sẽ tự hỗ trợ tốt đối với một môi trường Big
Data dựa trên nền đám mây.
Khởi bước vào Big Data trên đám mây
Những cân nhắc này bao gồm các tiêu chí đánh giá cơ bản cho việc khởi bước vào
Big Data. Bắt đầu, trải nghiệm và học hỏi trong suốt quá trình, nhưng khi bạn càng
xác định trước được nhiều những gì bạn cần từ Big Data thì bạn càng có nhiều thời
gian để tập trung vào trải nghiệm và bạn sẽ càng nhanh chóng đạt được kỹ năng
thiết lập tăng tốc.

1. Lập chỉ mục chung theo thời gian thực cho các dữ liệu máy bất kỳ
Đây là cốt lõi của dữ liệu lớn như hầu hết mọi người nghĩ về nó; nó thường được
đánh đồng với các dự án nguồn mở Hadoop (xem Tài nguyên). Đừng nhầm lẫn
giữa lập bảng chú dẫn trong Hadoop với một bảng chú dẫn trong cơ sở dữ liệu
quan hệ: Một chỉ số Hadoop là một chỉ số tập tin. Bằng cách này, Hadoop có thể
tiêu thụ nhiều loại dữ liệu khác nhau.
Hiện tại, các công ty có thể bị tràn ngập nguồn cấp dữ liệu từ tần số RFID (Radio
Frequency Identification - nhận dạng bằng sóng vô tuyến) lưu động, nhấp chuột
trang web, và các dữ liệu khác có thể được cấu trúc nếu dân CNTT dành thời gian
để làm cho nó thành dữ liệu cấu trúc và đặt nó trong một cơ sở dữ liệu quan hệ. Đó
có thể là giá trị đầu tư nếu bạn biết cách dữ liệu sẽ được sử dụng và cách nó sẽ
được truy vấn và truy cập trong tương lai.
Không cần phải biết tiềm năng sử dụng trong tương lai của dữ liệu mà Hadoop
cung cấp ra. Bằng cách lấy dữ liệu ngay lúc nó vừa đi vào, Big Data sẽ qua mặt
bước xác định dữ liệu cho đến sau này, khi việc phân tích được tiến hành. Hadoop
phân phối dữ liệu qua nhiều máy chủ và theo dõi những địa điểm mà không hạn
chế sử dụng trong tương lai.

