Mười cân nhắc dành cho giải
pháp Big Data trên đám mây
Khởi động mt môi trường tiêu th Big Data d dàng hơn trong nền đám mây
Tác ginhấn mạnh 10 yếu tố mà một công ty nên xem xét khi bắt đầu một dự án
Big Data, thm cmột trong số đó được coi là một thử nghiệm. Giải pháp dựa trên
nền đám mây được chú trọng vì nó giải quyết được nhiều yếu tố kỹ thuật phức tạp
trong bước đầu triển khai thực hin Big Data.
Big Data mt khái nim trong lĩnh vực CNTT đã đang phát triển rt nhanh
mnh. Như trong nhiu lĩnh vực CNTT, công ngh mi này lần đầu tiên được s
dng bic doanh nghip lớn và sau đó được chp nhn s dng bi các doanh
nghip va và nh. Big Data dường như là mt tiến trình ging hệt ra đời sau.
Khi Big Data phát trin trong thế giới thực, nó được áp dụng cho các thành phn
dliu không phải là lớn lắm. Các bộ dữ liệu thường là nhỏ bởi đa phần là do các
chuẩn mực được thực hin bằng các công cụ khai phá Big Data theo những cách
đặc biệt dành riêng cho cu trúc Big Data.
Thậm chí, chúng ta đều đồng ý rằng trong tương lai, dữ liệu sẽ ngày càng nhiều
hơn chứ không có chuyện ít n; thêm nhiều nguồn dữ liệu sẽ gửi d liu vào các
doanh nghiệp và tốc độ của dòng dliệu sẽ chỉ tăng lên. Đây là sân chơi tương lai
của Big Data. Một câu hỏi đặt ra về sân chơi đó là nơi mà nó sẽ tồn tại — trên tiền
đề hoặc trong nền đám mây và nhm vào các mục đích mà bn cần phải cân
nhắc để lựa chọn dịch vụ.
Xác định mt giải pháp Big Data đám mây
Giống như hầu hết các giải pháp với đám mây, việc xác định chính xác đám mây là
có thhơi khó khăn. Có nhiều đặc trưng khác nhau của đám mây tồn tại trong
không gian Big Data và ca một định nghĩa thống nhất chung nào (mặc dù có
một số tốt hơn so với những cái khác).
Đầu tiên, hãy bắt đầu với một trò chơi đố chữ nho nhỏ. Trạng thái của Big Data đạt
được khi khối lượng, chủng loại và tốc độ của dữ liệu vào trnên qnhiều đối
với cơ sdữ liệu quan hệ hiện hành để xử lý và sử dụng trong thời gian thực. Việc
triển khai các công nghệ trong Big Data là sự nỗ lực để xử lý điu kiện đó và cung
cấp những cách thức mi để sử dụng hiệu quả các dữ liệu đó điều đó có nghĩa là
phần cứng và cách thức mới tổ chức dữ liệu cho việc lưu trvà đọc cấp tốc. Đây là
bản chất của Big Data.
Đó cũng là lý do tn tại của Apache Hadoop, MapReduce, và các dự án, sản phm
tương tự. i trường Big Data dựa trên nền đám mây cần có khả ng tham khảo
dliu bên ngoài, chẳng hạn như hệ thống hoạch định nguồn lực doanh nghip và
các cơ sở dữ liu tiền đề khác, mà luôn định kỳ cập nhật dữ liệu mới. (Bên ngoài
đây có nghĩa là bên ngoài môi trường ảo Sandbox của Big Data.)
Vấn đề cần quan tâm là "lưu trữ" dữ liệu. Tiếp theo, bạn cần biết cách để phân tích
và đưa việc phân tích này đến nơi nó sẽ tác động đến quá trình kinh doanh.
Một dịch vụ Big Data cần có khả năng nhìn vào một nguồn dữ liệu đa dạng từ bên
ngoài cho đến nguồn dliệu chính, có khả năng bao gồm dữ liệu mới trong trung
m dliu, chứa các thành phần dữ liệu mới chưa từng nghĩ đến, và cung cấp một
phương pháp để phân tích và báo cáo dựa trên tổng thể. Nhu cầu về tính nâng cao,
tính linh hoạt và khả năng mở rộng sẽ tự hỗ trợ tốt đối với một môi trường Big
Data dựa trên nền đám mây.
Khi bước vào Big Data trên đám mây
Những cân nhắc này bao gồm các tiêu chí đánh giá cơ bản cho việc khởi bước vào
Big Data. Bắt đầu, trải nghiệm và học hỏi trong suốt quá trình, nhưng khi bạn càng
xác định trước được nhiều những gì bn cần từ Big Data thì bn càng có nhiều thời
gian để tập trung vào tri nghiệm và bn sẽ càng nhanh chóng đạt được kỹ năng
thiết lập tăng tốc.
1. Lp ch mc chung theo thi gian thc cho các d liu máy bt k
Đây là cốt lõi của dữ liệu lớn như hu hết mọi người nghĩ về nó; nó thường được
đánh đồng với các dự án nguồn mHadoop (xem i nguyên). Đừng nhầm lẫn
giữa lập bảng chú dẫn trong Hadoop vi một bảng chú dẫn trong cơ sở dữ liệu
quan h: Một chỉ số Hadoop là mt chỉ số tập tin. Bằng cách này, Hadoop có th
tiêu thnhiều loại dữ liu khác nhau.
Hiện tại, các công ty có thể bị tràn ngập nguồn cấp dữ liệu từ tần số RFID (Radio
Frequency Identification - nhận dạng bằng sóng vô tuyến) lưu động, nhấp chuột
trang web, và các dữ liệu khác có thể được cấu trúc nếu dân CNTT dành thời gian
để làm cho nó thành dliu cấu trúc và đặt nó trong một cơ sở dữ liệu quan hệ. Đó
có thlà giá trị đầu tư nếu bạn biết cách dữ liệu sẽ được sử dụng và cách nó s
được truy vấn và truy cập trong tương lai.
Không cn phải biết tiềm năng sử dụng trong tương lai của dữ liệu mà Hadoop
cung cấp ra. Bằng cách lấy dữ liệu ngay lúcvừa đi vào, Big Data squa mặt
bước xác định dữ liệu cho đến sau này, khi việc pn tích được tiến hành. Hadoop
phân phi dữ liệu qua nhiu máy chủ và theo dõi những địa điểm mà không hn
chế sử dụng trong tương lai.