Phát triển Java 2.0: Phân tích dữ liệu lớn với MapReduce của Hadoop

Phát triển Java 2.0: Phân tích dữ liệu lớn bằng

MapReduce của Hadoop

Khi Google tung ra tính năng tìm kiếm hình ảnh vào năm 2001, Google đã có 250 triệu hình ảnh

được lập chỉ mục. Gần một thập kỷ sau đó, gã khổng lồ tìm kiếm này đã lập chỉ mục hơn 10 tỷ

hình ảnh. Ba mươi lăm giờ nội dung được tải lên YouTube mỗi phút. Tính trung bình, Twitter

được cho là xử lý 55 triệu mẫu tin ngắn mỗi ngày. Đầu năm nay, 600 triệu truy cập hàng ngày đã

đăng nhập vào tính năng tìm kiếm của Twitter. Đó là những gì chúng tôi muốn đưa ra khi nói về

dữ liệu lớn.

Về loạt bài này

Viễn cảnh phát triển Java đã thay đổi hoàn toàn kể từ khi công nghệ Java xuất hiện lần đầu tiên.

Nhờ hoàn thiện các framework mở và các cơ sở hạ tầng triển khai cho thuê đáng tin cậy, bây giờ

chúng ta có thể tích hợp, thử nghiệm, chạy và bảo trì các ứng dụng Java một cách nhanh chóng

và không tốn kém. Trong loạt bài này, Andrew Glover khám phá một loạt các công nghệ và các

công cụ làm cơ sở phát triển Java kiểu mới này thành hiện thực.

Đã có lúc dữ liệu trên một quy mô lớn như vậy chỉ được sử dụng trong các tập đoàn lớn, các

trường đại học và chính phủ — những nơi có khả năng mua siêu máy tính đắt tiền và thuê nhân

viên để duy trì. Ngày nay, với việc hạ thấp chi phí lưu trữ và sức mạnh xử lý trở nên thông dụng,

các công ty nhỏ hơn và một số cá nhân, đã bắt đầu lưu trữ và khai phá dữ liệu tương tự như vậy,

thúc đẩy một làn sóng về đổi mới ứng dụng.

Một trong những công nghệ tạo khả năng của cuộc cách mạng dữ liệu lớn là MapReduce, một

mô hình lập trình và công cụ được Google phát triển để xử lý các tập hợp dữ liệu phân tán quy

mô lớn. Trong bài này, tôi giới thiệu công cụ MapReduce nguồn mở của Apache, đó là Hadoop,

mà một số người đã gọi là ứng dụng sát thủ của điện toán đám mây.

Giới thiệu Hadoop

Về cơ bản, Hadoop framework (khung công tác Hadoop) của Apache là một cơ chế dùng để

phân tích các tập dữ liệu rất lớn mà không cần đặt trong một kho dữ liệu. Hadoop trừu tượng hóa

công cụ phân tích dữ liệu to lớn của MapReduce, làm nó trở nên dễ tiếp cận hơn với các nhà phát

triển. Hadoop có khả năng mở rộng vô số các node và có thể xử lý tất cả hoạt động và phối hợp

liên quan đến việc phân loại dữ liệu.

Hadoop với các tính năng và tùy chỉnh phong phú đã trở thành một framework có ích và mạnh

mẽ đến không ngờ. Yahoo! và vô số các tổ chức khác đã tìm thấy ở nó một cơ chế hiệu quả để

phân tích các núi dữ liệu bit, byte. Hadoop cũng khá dễ thực hiện trên một node đơn; tất cả

những gì bạn cần là dữ liệu nào đó để phân tích và biết rõ về mã Java, bao gồm một phương tiện

lập trình tổng quát (generics). Hadoop cũng làm việc với Ruby, Python và C++.

Thông tin thêm về MapReduce

Nếu bạn là độc giả của loạt bài này, thì có thể bạn đã tìm hiểu cách hoạt động của MapReduce.

Trong bài "Tìm hiểu dịch vụ REST với CouchDB và RESTClient của Groovy" (REST up with

CouchDB and Groovy's RESTClient), tôi đã trình bày cách CouchDB sử dụng MapReduce cho

các khung nhìn, sau đó tôi lại sử dụng nó trong bài "MongoDB: Một kho dữ liệu NoSQL với các

di chuyển RDBMS (tất cả đều đúng)) (MongoDB: A NoSQL datastore with (all the right)

RDBMS moves)," như là cơ chế dùng để xử lý các tài liệu MongoDB.

Là một framework dựa trên các khái niệm dùng để xử lý các tập hợp dữ liệu khổng lồ,

MapReduce được tối ưu hóa rất cao để giải quyết vấn đề phân tán bằng cách sử dụng một số

lượng lớn các máy tính. Framework này bao gồm hai hàm, như tên gọi của nó cho thấy. Hàm

map (ánh xạ) được thiết kế để nhận một đầu vào dữ liệu lớn và phân chia nó thành từng mảnh

nhỏ hơn, rồi nó chuyển chúng đến các quá trình khác có thể làm điều gì đó với nó. Hàm reduce

(giảm) phân loại các câu trả lời riêng lẻ do hàm map thu thập và đưa chúng tới một đầu ra cuối

cùng.

Trong Hadoop, bạn định nghĩa các việc thực hiện map và reduce bằng cách mở rộng các lớp cơ

sở riêng của Hadoop. Các việc thực hiện này được gắn chặt với nhau bằng một cấu hình quy định

chúng, cùng với các định dạng đầu vào và đầu ra. Hadoop rất thích hợp cho việc xử lý các tệp rất

lớn chứa dữ liệu có cấu trúc. Một khía cạnh rất tiện dụng của Hadoop là ở chỗ nó xử lý phân tích

cú pháp thô của một tệp đầu vào, do đó bạn có thể xử lý một dòng tại một thời điểm. Vì thế việc

định nghĩa một hàm map thực ra chỉ là vấn đề xác định những gì bạn cần nắm lấy từ một dòng

văn bản gửi đến.

Về đầu trang

Dữ liệu khắp mọi nơi!

Phát triển kỹ năng về chủ đề này

Nội dung này nằm trong "đường dẫn đến kiến thức (knowledge path)" để bổ sung các kỹ năng

của bạn. Xem Using NoSQL and analyzing big data

Chính phủ Hoa Kỳ tạo ra rất nhiều dữ liệu, phần lớn trong số đó quan trọng với các công dân

trung lưu. Các cơ quan chính phủ khác tự do phân phối dữ liệu liên quan đến sức khỏe nền kinh

tế Mỹ và việc thay đổi kết quả thống kê dân số xã hội. Cơ quan Khảo sát Địa chất Hoa Kỳ

(USGS - The U.S. Geological Survey) công bố các dữ liệu động đất quốc tế.

Nhiều trận động đất nhỏ xảy ra hàng ngày tại nhiều khu vực trên toàn thế giới. Phần lớn trong số

đó xảy ra ở sâu bên trong lớp vỏ trái đất, do đó không ai cảm thấy chúng, nhưng các trạm thu vẫn

ghi lại chúng. USGS công bố hàng tuần dữ liệu động đất của mình dưới dạng của một tệp CSV

(hoặc các giá trị được phân cách bằng dấu phẩy).

Một tệp trung bình hàng tuần không phải là quá lớn — chỉ khoảng 100KB hay tương đương như

vậy. Mặc dù vậy, nó sẽ dùng làm cơ sở cho việc tìm hiểu về Hadoop. Tuy nhiên, hãy nhớ rằng

Hadoop có khả năng xử lý các tập hợp dữ liệu lớn hơn nhiều.

Theo dõi các trận động đất

Tệp CSV mà mới đây tôi đã tải về từ trang web của USGS có khoảng 920 dòng, như trong Liệt

kê 1:

Liệt kê 1. Tổng số dòng của một tệp dữ liệu động đất của USGS

$> wc -l eqs7day-M1.txt

920 eqs7day-M1.txt

Các nội dung của tệp CVS trông đại thể giống như những gì bạn thấy trong Liệt kê 2 (đây chính

là hai dòng đầu tiên):

Liệt kê 2. Hai dòng đầu tiên của tệp CVS

$> head -n 2 eqs7day-M1.txt

Src,Eqid,Version,Datetime,Lat,Lon,Magnitude,Depth,NST,Region

ci,14896484,2,"Sunday, December 12, 2010 23:23:20 UTC",33.3040,-

116.4130,1.0,11.70,22,

"Southern California"

Đó là những gì tôi sẽ gọi là một tệp giàu thông tin (information rich), đặc biệt là khi bạn biết

rằng tệp này có tổng số 920 dòng. Tuy nhiên, tôi chỉ muốn biết có bao nhiêu trận động đất xảy ra

mỗi ngày trong tuần được tệp này báo cáo. Sau đó, tôi muốn biết khu vực bình thường nào đã có

nhiều trận động đất nhất trong vòng bảy ngày đó.

Suy nghĩ đầu tiên của tôi là tôi có thể sử dụng các lệnh grep đơn giản để tìm kiếm số lượng các

trận động đất mỗi ngày. Hãy xem tệp này, tôi thấy rằng dữ liệu của nó bắt đầu từ ngày12 tháng

12 (December 12). Vì vậy, tôi thực hiện một lệnh grep -c của chuỗi đó, với kết quả được hiển

thị trong Liệt kê 3:

Liệt kê 3. Có bao nhiêu trận động đất vào ngày 12 tháng 12?

$> grep -c 'December 12' eqs7day-M1.txt

Cài đặt Hadoop

Nếu bạn vẫn chưa cài đặt Hadoop thì hãy làm điều đó ngay. Trước tiên, tải về tệp mã nhị phân

mới nhất, giải nén nó rồi thiết lập đường dẫn thư mục bin của Hadoop vào biến môi trường path

trên máy tính của bạn. Việc này cho phép bạn thực hiện lệnh hadoop trực tiếp. Việc sử dụng

Hadoop đòi hỏi bạn phải thực hiện lệnh hadoop của nó chứ không phải bằng cách gọi lệnh java.

Bạn có thể chuyển các tùy chọn vào lệnh hadoop, chẳng hạn như có thể tìm thấy các tệp nhị

phân Java của bạn ở đâu (ví dụ, các tệp này đại diện cho các việc thực hiện map và reduce của

bạn). Trong trường hợp của tôi, tôi tạo ra một tệp jar và nói cho Hadoop biết những công việc

nào mà tôi muốn chạy bên trong tệp jar của mình. Tôi cũng thêm vào bất kỳ tệp nhị phân bổ sung

nào cần thiết để chạy ứng dụng của mình với đường dẫn lớp (classpath) của Hadoop.

Bây giờ tôi biết rằng vào ngày 12 tháng 12 đã có 98 mục nhập hay 98 trận động đất được ghi

nhận. Tôi chỉ có thể xuống dòng và thực hiện một lệnh grep với ngày 10, 11 tháng 12 và v.v.

Nhưng điều đó thật là chán. Tệ hơn nữa là để làm được, tôi cần phải biết trong tệp đó có những

ngày nào. Tôi thì lại không muốn quan tâm về điều đó và trong một số trường hợp, có thể tôi

không có quyền truy cập vào thông tin. Thực sự tôi chỉ muốn biết những con số cho từng ngày

cụ thể trong bất kỳ khoảng thời gian bảy ngày nào và tôi có thể nhận được thông tin đó một cách

dễ dàng bằng Hadoop.

Hadoop chỉ cần một vài mẩu thông tin để trả lời câu hỏi thứ nhất và thứ hai của tôi: đó là, cần xử

lý những đầu vào nào và làm thế nào để xử lý map và reduce. Ngoài ra tôi cũng sẽ phải cung cấp

một công việc gắn chặt mọi thứ lại với nhau. Nhưng trước khi tôi bắt đầu làm về mã đó, tôi sẽ

mất một vài phút để chắc chắn rằng mọi thứ đều hợp lệ với dữ liệu CSV của tôi.

Về đầu trang

Phân tích cú pháp dữ liệu bằng opencsv

Ngoài dòng đầu tiên chính là tiêu đề của tệp dữ liệu CSV về các trận động đất, thì mỗi dòng là

một loạt các giá trị dữ liệu được phân cách bằng dấu phẩy. Đầu tiên tôi quan tâm đến ba mẩu

thông tin: ngày, tọa độ và độ lớn của mỗi trận động đất. Để có được những mẩu tin này, tôi sẽ sử

dụng một thư viện mã nguồn mở tiện lợi tên là opencsv, giúp phân tích cú pháp các tệp CSV.

Trong lần kiểm tra đầu tiên, tôi sẽ bắt đầu bằng cách viết một bài kiểm tra nhanh JUnit để xác

minh rằng tôi có thể nhận được thông tin mà tôi cần từ một dòng ví dụ mẫu thu được của tệp

CSV, được hiển thị trong Liệt kê 4:

Liệt kê 4. Phân tích cú pháp một dòng CSV

public class CSVProcessingTest {

private final String LINE = "ci,14897012,2,\"Monday, December 13, 2010 " +

"14:10:32 UTC\",33.0290,-115." +

"5388,1.9,15.70,41,\"Southern California\"";

@Test

public void testReadingOneLine() throws Exception {

String[] lines = new CSVParser().parseLine(LINE);

assertEquals("should be Monday, December 13, 2010 14:10:32 UTC",

"Monday, December 13, 2010 14:10:32 UTC", lines[3]);

assertEquals("should be Southern California",

"Southern California", lines[9]);

assertEquals("should be 1.9", "1.9", lines[6]);

}

Như bạn có thể thấy trong Liệt kê 4, opencsv thực hiện công việc với các giá trị được phân cách

bằng dấu phẩy khá dễ dàng. Trình phân tích cú pháp chỉ trả về một mảng của các String (Chuỗi

ký tự), do đó, có thể nhận được các giá trị vị trí (chỉ cần nhớ lại rằng việc truy cập vào mảng và

collection của Java dựa vào số 0 (zero-based)).

Chuyển đổi định dạng ngày

Khi làm việc với MapReduce, công việc của hàm map là chọn một vài giá trị để trả lời, cùng với

khóa nào đó. Có nghĩa là, trước tiên hàm map làm việc và trả về hai phần tử: một khóa và một giá

trị. Hãy quay lại các yêu cầu trước đây của tôi, trước hết tôi muốn tìm ra có bao nhiêu trận động

đất xảy ra mỗi ngày. Theo đó, khi tôi phân tích tệp động đất, tôi sẽ phát ra hai giá trị: khóa của

tôi sẽ là ngày và giá trị sẽ là một bộ đếm. Sau đó hàm reduce của tôi sẽ tính tổng các bộ đếm (là

các số nguyên), vì thế cung cấp cho tôi số lần động đất trong một ngày.

Vì tôi đang quan tâm đến khoảng thời gian là 24-giờ, nên tôi sẽ phải loại bỏ khía cạnh thời gian

của ngày trong mỗi tệp. Trong Liệt kê 5, tôi viết một bài kiểm tra nhanh để xác nhận hợp lệ rằng

tôi sẽ chuyển đổi định dạng ngày tháng cụ thể trong một tệp gửi đến thành một ngày có khoảng

thời gian 24-giờ tổng quát hơn như thế nào:

Liệt kê 5. Các chuyển đổi định dạng ngày

@Test

public void testParsingDate() throws Exception {

String datest = "Monday, December 13, 2010 14:10:32 UTC";

SimpleDateFormat formatter = new SimpleDateFormat("EEEEE, MMMMM dd, yyyy

HH:mm:ss Z");

Date dt = formatter.parse(datest);

formatter.applyPattern("dd-MM-yyyy");

String dtstr = formatter.format(dt);

assertEquals("should be 13-12-2010", "13-12-2010", dtstr);

}

Phát triển Java 2.0: Phân tích dữ liệu lớn bằng MapReduce của Hadoop

Chủ đề:

Tài liệu liên quan

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi