Big data trong công
nghệ đám mây
Tốc độ, khi lượng, tính đa dạng và xác thc ca d liu
Dliu lớn (Big Data) là một tính năng vốn có của công nghệ đám mây và cung
cấp cơ hội chưa từng có khi sử dụng cả hai loại cơ sdữ liệu truyền thng và mạng
xã hội, dữ liệu của mạng báo hiệu và xa hơn nữa là dliệu đa phương tiện. Các
ứng dụng dữ liệu lớn yêu cu kiến trúc trung tâm dữ liu và nhiều giải pháp bao
gm các API của nền tảng đám mây để tích hợp với tìm kiếm nâng cao, các giải
thuật máy học và các phân tích nâng cao như thị giác máy tính, phân tích phimnh
và các công cụ phân tích trực quan. i viết này nghiên cu cách sử dụng ngôn
ngữ R và các công cụ phổ biến để phân tích dữ liệu lớn và các phương pháp để m
rộng các dịch vụ dữ liệu lớn trong các đám mây. Nó cung cấp một góc nhìn sâu sắc
về một dịch vụ dữ liệu lớn cơ bản là quản lý hình nh số, trong đó sử dụng các yếu
tố cơ bản như tìm kiếm, pn tích và máy học cho dữ liệu không có cấu trúc.
Bài viết này tp trung vào nhng ng dng s dng d liu ln, đồng thi gii
thích nhng khái nim cơ bn đằng sau vic phân tích d liu ln và làm cách nào
kết hp vi nhng ng dng phân tích th trường và các k thut x lý song song
như th giác máy tính (CV - Computer Vision) cũng như máy hc, tt c s được đề
cập đến trong mc 3 ca lot bài v "Cloud scaling (M rng đám mây)".
Sự khác biệt giữa phân tích dữ liệu ln với phân tích video là về sự đa dạng của dữ
liu xử lý, và khi so sánh các công chỗ trợ tìm kiếm và phân tích, ta có thể thấy
rằng sử dụngc phương pháp khai phá dữ liệu hay MapReduce chẳng những có
thể phức tạp hơn mà còn mất thời gian lâu hơn rất nhiu so với việc dùng Google
BigQuery. Ví dụ Google BigQuery sử dụng tìm kiếm theo chiều dọc để nén và đẩy
nhanh quá trình tìm kiếm choc bdữ liệu lớn và phi cu trúc. Thực tế, trong bài
"An Inside Look at Google BigQuery (Tìm hiu sâu về Google BigQuery)" (xem
phần i nguyên), Google giải thích, trong 10 giây BigQuery có thể tìm kiếm một
đoạn chuỗi trong một bảng dữ liệu có khoảng 35 tỷ dòng và 20TB. Các công c
dùng chức năng MapReduce mất nhiu thời gian hơn để xử lý nhưng đem lại kết
quả tốt hơn.
Bất cứ ai có một tài khon Google đều có thể sử dụng BigQuery. Ý tưởng của
nhanh hơn các phương pháp tìm kiếm dliệu lớn khác, điển hình là khii tải hình
ảnh và đưa nh lên trang Google Images. Bạn sẽ thấy được tất cảc tranghình
ảnh của tôi (từ IBM, Đại học Colorado Boulder, v.v..), trong đó có thể có những
sai sót nhỏ. Tôi sử dụng ví dụ này chủ yếu là để đảm bảo hình nh tôi đã ti về là
những hình nh phù hợp và cho phép tái s dụng nhiều lần. Cùng vi các ví d
khác tôi đã khám phá, qua đó thấy được ý nghĩa của dữ liệu ln là chúng ta đang
thực hiện việc "mò kim đáy bể" dễ dàng hơn trong mớ hỗn độn của dữ liệu phi cấu
trúc.
Định nghĩa dữ liu ln
Dữ liệu lớn (Big data) được định nghĩa khái quát là sthu thập, quản lý và phân
ch dliệu, những việc đó đã vượt xa dữ liệu cấu trúc tiêu biu (typical), nó có thể
được truy vấn với hệ thống quản lý dliu quan hệ thường với những tệp phi
cấu trúc (unstructured files), video kỹ thuật số, hình nh, dữ liệu cảm biến, tệp lưu
nhật ký, thực sự bất cứ dữ liệu nào không có trong hồ sơ với các phạm vi tìm kiếm
khác. Trong một số ý nghĩa, dữ liệu phi cấu trúc là dữ liệu thú vị, nhưng nó k
tổng hợp vào BI (Business Intelligence) hoặc rút trích ra những kết luận từ nó trừ
khi nó có thể tương quan với dữ liệu có cấu trúc.
Dliu lớn cũng có những nguồn mới, như trong máy tính (vd: các file log nhật ký
hay mng cảm biến), trong thiết bị di động (video, hình nh, tin nhắn), và trong các
thiết bị máy móc kết nối với nhau (vd như xe, máy bay hoặc các thiết bị giám sát
txa) nhằm mục đích lên kế hoạch bảo trì kịp thời. Có nột cách để m được việc
này là dựa vào đặc tính volume (khối lượng). IBM ước lượng, có 2.5 nhân 10
18 bytes (2,500,000,000,000,000,000) dliệu được tạo ra mỗi ngày (xem phần Tài
nguyên). Đặc điểm tiếp theo là velocity (tốc độ), nơi có tỷ lệ dữ liệu được gia tăng
bởi vì băng thông mạng điển hình như tỷ lệ gigabit ngày nay (gigE, 10G, 40G,
100G) được so sánh với tỷ lệ megabit. Một đặc điểm khác là variety (tính đa
dạng), bao gm nhiều kiểu dữ liệu phi cấu trúc, như dòng hình nh kỹ thuật số
(digital video streams), dữ liệu cảm biến, cũng như các file log nhật ký. Cuối cùng
là veracity (tính xác thc) của dữ liệu, hay có bao nhiêu dữ liệu tin cậy khi những
quyết định quan trọng cần được thực hiện trên sng lớn dữ liệu thu thập ở tỷ lệ
cao. Đơn giản chỉ cần biết dữ liệu đó là không gimạo, không bị hỏng, đến từ một
ngun kỳ vọng là khó khăn — nó có thể đến từ 1000 máy quay an ninh, mỗi ngày
có thể có 1000 khung hình trên 1 giờ. Vậy, chúng ta cùng phát thảo một vài khía
cạnh của dữ liệu lớn, những ứng dụng và nhng hệ thống để hiểu tốt n về chúng.
Có l cách tt nhất để hiu d liu ln là xem li lch s ca nó, như Tp chí
Forbes đã làm (xem phn i nguyên). Quy mô ca d liu lớn đã tăng hơn 2.5
exabyte mỗi ngày. Điều thú v, phn lnc d liu s không bao gi được xem li
bi con người (ch vi 7 t người M, mi chúng t s phi xem nhiu hơn 300
MB thông tin mi ngày). Thc hin th thách này, cách duy nhất để s dng nhiu
d liu là t động hóa t máy tính đến máy tính (machine-to-machine) hoc truy
vn thông tin d liu ln. Hơn na, nếu d liệu này được lưu tr trong thi gian
dài, làm thế nào chúng ta có th biết nhng d liệu nào đã b hng? Chúng ta có
th kim tra phân loi d liu lưu tr (chng hn MD5, nó là mt hình thc kim
tra) và s dng mng d phòng ca các đĩa độc lp (RAID—mirrors, XOR
parity, hoc mã ty xóa để phát hin và phc hi nhng d liu b li), nhưng cũng
đáng lo là có mt s d liuth b likhông phát hiện được (xem phn Tài
nguyên).