Phân tích dữ liệu môi trường truyền thông xã hội và
dữ liệu có cấu trúc với BigInsights InfoSphere
Bạn có thể đã nghe nói về Big Data (dữ liệu lớn) và tác động của nó đối với việc phân tích kinh
doanh. Và có lẽ bạn đang tự hỏi tổ chức của mình có th thu nhặt được những hiểu biết gì từ việc
nắm bắt, xử lý và quản lý dữ liệu lớn được thu thập từ các trang web, các cảm biến điện tử hoặc
các bản ghi nhật ký phần mềm, cùng với các dữ liu truyền thống mà bạn đã có. Chắc chắn,
không thiếu các dự án của bên thứ ba và ngun mđược thiết kế để giúp bn giải quyết các khía
cạnh khác nhau của các dự án Big Data của mình. Nhưng hầu hết các dự án đều được hướng v
phía các lập trình viên, các quản trị viên và các chuyên gia k thuật với các kỹ năng cụ thể.
Điều gì sẽ xảy ra nếu bạn muốn làm cho Big Data có thtới được các nhà phân tích kinh doanh,
các nhà lãnh đạo ngành kinh doanh và các nhân viên khác, nhng người không phải là các lập
tnh viên? BigSheets đáng giá hơn vẻ bề ngoài ca nó. Đó là một công cụ kiểu-bảng tính đi kèm
với InfoSphere BigInsights, cho phép nhng người không phải là lập trình viên thể khám p,
thao tác và hiển thị trực quan dữ liệu được lưu trữ trong hệ thống tệp phân tán của bạn. Các ứng
dụng ví dụ mẫu kèm theo BigInsights giúp bạn thu thập và nhập dữ liệu từ nhiều nguồn khác
nhau. Trong bài y, chúng tôi sẽ giới thiệu cho bn về BigSheets và hai ng dụng dụ mẫu đi
kèm theo nó.
Nền tảng
BigInsights là mt nền tảng phần mềm thể giúp các công ty phát hiện và phân tích những hiểu
biết kinh doanh ẩn dấu trong các khối lượng lớn của rt nhiều lĩnh vực dữ liệu — dliệu thường
b bỏ qua hoặc bị vứt bỏ vì nó quá không thực tế hoặc quá khó xử lý bằng cách sử dụng các
phương tin truyn thống.
Để giúp các doanh nghiệp lấy được giá trị từ những dữ liệu đó mt cách hiệu quả, Ấn bản Doanh
nghiệp của BigInsights bao gm mt s dự án nguồn mở, gồm Apache Hadoop và một số
công nghệ đã phát trin của IBM, gồm BigSheets. Hadoop và các dự án liên quan của nó cung
cấp mt framework phần mềm hiệu quả cho các ứng dụng chuyên về dữ liệu, khai thác các môi
trường tính toán phân tán để đạt được khả năng mở rộng quy mô cao.
Các công nghệ của IBM làm phong phú thêm framework nguồn mnày vi phần mm pn
tích, ch hợp phần mm doanh nghiệp, các phần mở rộng nền tảng và các công cụ. Để biết thêm
thông tin về BigInsights, hãy xem phần i nguyên. BigSheets là mt công cụ phân tích dựa trên
tnh duyệt ban đầu được nhóm Emerging Technologies của IBM phát trin. Hiện nay, BigSheets
được gắn với BigInsights để cho phép những người dùng doanh nghiệp và không phải là lập
tnh viên khám phá và phân tích dliệu trong các hệ thng tệp phân tán. BigSheets trình bày
mt giao din như-bng tính để người dùng có thmô hình hóa, lc, kết hợp, khám phá và v
biểu đồ dữ liệu được thu thập từ nhiều nguồn khác nhau. Giao din bàn điều khiển web của
BigInsights gm có một ngăn (tab) trên đỉnh để truy cập BigSheets. Xem phần i nguyên để
biết thêm chi tiết về giao diện bàn điều khiển web này.
Hình 1 mô tả một bộ sưu tập dữ liệu ví dụ mẫu trong BigSheets. Trong khi nó trông ging như
mt bảng tính đin hình, b sưu tập này chứa các dữ liu từ các blog được đăng lên các trang
webng cộng và các nhà phân tích thậm chí có thể nhấn chuột vào các liên kết có trong bộ sưu
tập để truy cập vào trang web đã xuất bản nội dung nguồn.
Hình 1. Bộ sưu tập ví dụ mẫu BigSheets dựa trên dữ liệu của môi trường truyền thông xã
hội, các liên kết đến nội dung nguồn
Sau khi định nghĩa mt b sưu tập BigSheets, một nhà phân tích thlc hoặc chuyển đổi dữ
liệu của nó như mong muốn. Ở hậu trường, BigSheets dịch các lệnh của ngườing, được thể
hiện thông qua một giao diện đồ ha, thành các kch bản lệnh Pig được thực hiện dựa vào mt
tập hợp con của các dữ liệu bên dưới. Theo cách này, mt nhà phân tích có thể nhiều ln khám
phá các biến đổi khác nhau mt cách hiệu quả. Khi đã hài lòng, người sử dng có thể lưu chạy
bộ sưu tập, làm cho BigSheets bắt đầu công việc MapReduce trên bdữ liệu đầy đủ, viết các kết
quả vào hệ thng tệp phân tán và hiển thị các nội dung của bộ sưu tập mới. Các nhà phân tích
thể lật trang và thao tác tập hợp dữ liệu đầy đủ như mong muốn.
Bsung cho BigSheets là mt s ứng dụng ví dụ mẫu đã dựng sẵn mà những người dùng doanh
nghiệp có thể khởi chạy chúng từ giao din bàn điều khiển web của BigInsights để thu thập dữ
liệu từ các trang web, các hệ thống quản cơ sở dliệu quan hệ (RDBMS), các hệ thống tệp từ
xa và các ngun khác. Chúng tôi sẽ dựa vào hai ng dụng như vậy chong việc được mô tả ở
đây. Tuy nhiên, điều quan trọng cần hiểu rõ là các lập trình viên và các qun trị viên có thể sử
dụng các công nghệ BigInsights khác để thu thập, x và chuẩn bị dữ liệu cho việc phân tích
tiếp theo trong BigSheets. Các công nghệ này gm có Jaql, Flume, Pig, Hive, các ứng dụng
MapReduce và các công nghệ khác.
IBM Watson
IBM Watson là một dự án nghiên cứu mà nó thực hin các phân tích phức tạp để trả li các câu
hi được trình bày theo một ngôn ngữ tự nhiên. Phần mềm của Watson tra cứu dữ liệu được thu
thập từ nhiều nguồn khác nhau và sử dụng Hadoop để xử lý hiệu quả dữ liệu này qua mt h
thng các máy chủ IBM Power 750. IBM Watson đầu tiên được dùng trong mt cuộc thi trò chơi
trên truyn hình o năm 2011, đánh bại hai người chơi dẫn đầu. Xem phần Tài nguyên để biết
thêm các chi tiết về IBM Watson và chương trình trò chơi Jeopardy!.
Trước khi bắt đầu, chúng ta hãy xem t các kch bnng dụng dụ mẫu. Việc này đòi hỏi
phân tích dliệu của môi trường truyền thông xã hi về IBM Watson và, cuối cùng, ni dữ liệu
này với dữ liệu nội bộ của IBM đã mô phỏng về các nỗ lực tiếp cận môi trường truyền thông
được tch ra t mt DBMS quan hệ. Ý tưởng là khám phá khnăng hiển thị, đưa tin và "lan
truyn" xung quanh mt nhãn hàng, dch vụ hay dự án nổi bật — một yêu cầu chung trong nhiều
tổ chức. Chúng tôi sẽ không trình bày hết các khả năng phân tích cho mt ứng dụng như vậy
đây, do ý định của chúng tôi chỉ đơn giản là nêu bật cách các khía cạnh quan trng của BigSheets
có th giúp các nhà phân tích bắt đầu nhanh chóng công việc với dữ liệu lớn như thế nào. Tuy
nhiên, công việc mà chúng ta sẽ tìm hiu sẽ giúp bạn hiểu nhng gì là có thể với một chút nỗ lực
— và có lmang đến mt hay hai bất ngờ về sự nổi tiếng của IBM Watson.
Về đầu trang
Bước 1: Thu thập dữ liệu của bạn
Trước khi khởi chạy BigSheets, bạn cần mt s dữ liệu dùng cho việc phân tích của mình. Trước
hết, chúng ta sẽ tập trung vào việc thu thập dữ liệu của môi trường truyền thông xã hi.
Thu thập dữ liệu của môi trường truyn thông xã hi
Như bạn có thể dự kiến, vic thu thập và x dữ liệu được trích ra từ các trang web của môi
trường truyền thông xã hi có thể là thách thức, do các trang web khác nhau nắm giữ thông tin
khác nhau và sử dụng các cấu trúc dữ liệu khác nhau. Hơn nữa, vic xác định và dò tìm qua rất
nhiều các trang web cá nhân có thể rất tốn thời gian.
Ở đây, chúng tôi đã sử dụng ứng dụng ví dụ mẫu BoardReader kèm theo BigInsights để khởi
chy mt tìm kiếm về các blog, các nguồn cấp tin tức, các diễn đàn thảo luận và các trang web
video. nh 2 minh ha các tham s đầu vào mà chúng tôi đã cung cấp cho ứng dụng
BoardReader của BigInsights, chúng tôi đã khởi chạy nó từ trang Applications (Các ứng dụng
của) giao din bàn điều khiển Web của BigInsights. Nếu bạn chưa quen với giao diện bàn điều
khiển web và danh mc các ứng dụng mẫu của nó, hãy xem phần i nguyên.
Hình 2. Gọi ứng dụng BoardReader từ giao diện bàn điều khiển web BigInsights
Hãy xem xét nhanh các tham s đầu vào được hiển thị trong Hình 2. Results Path (Đường dẫn
Các kết quả) chỉ rõ thư mục của hệ thng tệp phân tán Hadoop (HDFS) với kết quả của của ứng
dụng. Các tham số tiếp theo cho biết rằng chúng tôi đã hn chế các kết quả được trả về tới ti đa
là 25.000 kết quả phù hợp và khoảng thời gian tìm kiếm bắt đầu t 01.01.2011 đến cuối
31.03.2012. Properties File (Tệp Đặc tính) tham khảo kho lưu trữ thông tin của BigInsights mà
chúng tôi đã đin vào bng khóa bản quyền của BoardReader của chúng tôi. (Mỗi khách hàng
phải liên hệ với BoardReader để nhận được một khóa bản quyền hợp lệ). Và "IBM Watson"
chủ đề tìm kiếm của chúng ta.
Sau khi chạy ứng dụng, hệ thống tệp phân tán có chứa bốn tệp mới trong t mục kết quả, như
được hiển thị ở dưới cùng của Hình 3.
Hình 3. Kết quả của ứng dụng được lưu trữ trong BigInsights
Để gicho mọi thứ đơn giản, trong bài này, chúng tôi schỉ sử dụng dữ liệu tin tức và blog. Nếu
bạn muốn làm theo cùng với kịch bản ứng dụng ví dụ mẫu của chúng tôi, hãy thực hin các ứng
dụng BoardReader với các tham số mà chúng tôi đã quy định hoặc tải về dữ liệu ví dụ mẫu. u
ý rằng việc tệp tải xuống chỉ chứa mt tập hợp con thông tin mà BoardReader thu thập từ các
nguồn cấp tin tức và các blog. Cthể là, chúng tôi đã loại b nội dung toàn văn bản/HTML của
các bài đăng và các mục tin tức cũng như siêu dữ liệu cụ thể từ các tệp mẫu. Dữ liệu này không
cần thiết cho các nhiệm vụ phân tích được trình bày ở đây và chúng tôi cũng muốn giữ cho kích
cỡ của mi tệp ở mức dễ sử dụng.
Mỗi tệp được ứng dụng BoardReader trả về đều theo định dạng JSON. Bạn có thể hiển thị mt
phần nhỏ của dữ liệu này như là văn bản trong trang Files (Các tệp) của giao din bàn điều khin
web của BigInsights, nhưng khó đọc các kết quả. Lúc này, bạn sẽ thấy cách chuyển đổi dữ liệu
này thành "các trang bảng tính" hoặc các bộ sưu tp dữ liệu BigSheets, đó là cách dễ hơn nhiều
để tìm hiu. Nhưng điều đáng lưu ý là mi tệp có chứa mt cấu trúc JSON hơi khác một chút