Phân tích dữ liệu môi trường truyền thông xã hội và dữ liệu có cấu trúc với BigInsights InfoSphere

Phân tích dữ liệu môi trường truyền thông xã hội và

dữ liệu có cấu trúc với BigInsights InfoSphere

Bạn có thể đã nghe nói về Big Data (dữ liệu lớn) và tác động của nó đối với việc phân tích kinh

doanh. Và có lẽ bạn đang tự hỏi tổ chức của mình có thể thu nhặt được những hiểu biết gì từ việc

nắm bắt, xử lý và quản lý dữ liệu lớn được thu thập từ các trang web, các cảm biến điện tử hoặc

các bản ghi nhật ký phần mềm, cùng với các dữ liệu truyền thống mà bạn đã có. Chắc chắn,

không thiếu các dự án của bên thứ ba và nguồn mở được thiết kế để giúp bạn giải quyết các khía

cạnh khác nhau của các dự án Big Data của mình. Nhưng hầu hết các dự án đều được hướng về

phía các lập trình viên, các quản trị viên và các chuyên gia kỹ thuật với các kỹ năng cụ thể.

Điều gì sẽ xảy ra nếu bạn muốn làm cho Big Data có thể tới được các nhà phân tích kinh doanh,

các nhà lãnh đạo ngành kinh doanh và các nhân viên khác, những người không phải là các lập

trình viên? BigSheets đáng giá hơn vẻ bề ngoài của nó. Đó là một công cụ kiểu-bảng tính đi kèm

với InfoSphere BigInsights, cho phép những người không phải là lập trình viên có thể khám phá,

thao tác và hiển thị trực quan dữ liệu được lưu trữ trong hệ thống tệp phân tán của bạn. Các ứng

dụng ví dụ mẫu kèm theo BigInsights giúp bạn thu thập và nhập dữ liệu từ nhiều nguồn khác

nhau. Trong bài này, chúng tôi sẽ giới thiệu cho bạn về BigSheets và hai ứng dụng ví dụ mẫu đi

kèm theo nó.

Nền tảng

BigInsights là một nền tảng phần mềm có thể giúp các công ty phát hiện và phân tích những hiểu

biết kinh doanh ẩn dấu trong các khối lượng lớn của rất nhiều lĩnh vực dữ liệu — dữ liệu thường

bị bỏ qua hoặc bị vứt bỏ vì nó quá không thực tế hoặc quá khó xử lý bằng cách sử dụng các

phương tiện truyền thống.

Để giúp các doanh nghiệp lấy được giá trị từ những dữ liệu đó một cách hiệu quả, Ấn bản Doanh

nghiệp của BigInsights bao gồm một số dự án nguồn mở, gồm có Apache Hadoop và một số

công nghệ đã phát triển của IBM, gồm BigSheets. Hadoop và các dự án liên quan của nó cung

cấp một framework phần mềm hiệu quả cho các ứng dụng chuyên về dữ liệu, khai thác các môi

trường tính toán phân tán để đạt được khả năng mở rộng quy mô cao.

Các công nghệ của IBM làm phong phú thêm framework nguồn mở này với phần mềm phân

tích, tích hợp phần mềm doanh nghiệp, các phần mở rộng nền tảng và các công cụ. Để biết thêm

thông tin về BigInsights, hãy xem phần Tài nguyên. BigSheets là một công cụ phân tích dựa trên

trình duyệt ban đầu được nhóm Emerging Technologies của IBM phát triển. Hiện nay, BigSheets

được gắn với BigInsights để cho phép những người dùng doanh nghiệp và không phải là lập

trình viên khám phá và phân tích dữ liệu trong các hệ thống tệp phân tán. BigSheets trình bày

một giao diện như-bảng tính để người dùng có thể mô hình hóa, lọc, kết hợp, khám phá và vẽ

biểu đồ dữ liệu được thu thập từ nhiều nguồn khác nhau. Giao diện bàn điều khiển web của

BigInsights gồm có một ngăn (tab) ở trên đỉnh để truy cập BigSheets. Xem phần Tài nguyên để

biết thêm chi tiết về giao diện bàn điều khiển web này.

Hình 1 mô tả một bộ sưu tập dữ liệu ví dụ mẫu trong BigSheets. Trong khi nó trông giống như

một bảng tính điển hình, bộ sưu tập này chứa các dữ liệu từ các blog được đăng lên các trang

web công cộng và các nhà phân tích thậm chí có thể nhấn chuột vào các liên kết có trong bộ sưu

tập để truy cập vào trang web đã xuất bản nội dung nguồn.

Hình 1. Bộ sưu tập ví dụ mẫu BigSheets dựa trên dữ liệu của môi trường truyền thông xã

hội, có các liên kết đến nội dung nguồn

Sau khi định nghĩa một bộ sưu tập BigSheets, một nhà phân tích có thể lọc hoặc chuyển đổi dữ

liệu của nó như mong muốn. Ở hậu trường, BigSheets dịch các lệnh của người dùng, được thể

hiện thông qua một giao diện đồ họa, thành các kịch bản lệnh Pig được thực hiện dựa vào một

tập hợp con của các dữ liệu bên dưới. Theo cách này, một nhà phân tích có thể nhiều lần khám

phá các biến đổi khác nhau một cách hiệu quả. Khi đã hài lòng, người sử dụng có thể lưu và chạy

bộ sưu tập, làm cho BigSheets bắt đầu công việc MapReduce trên bộ dữ liệu đầy đủ, viết các kết

quả vào hệ thống tệp phân tán và hiển thị các nội dung của bộ sưu tập mới. Các nhà phân tích có

thể lật trang và thao tác tập hợp dữ liệu đầy đủ như mong muốn.

Bổ sung cho BigSheets là một số ứng dụng ví dụ mẫu đã dựng sẵn mà những người dùng doanh

nghiệp có thể khởi chạy chúng từ giao diện bàn điều khiển web của BigInsights để thu thập dữ

liệu từ các trang web, các hệ thống quản lý cơ sở dữ liệu quan hệ (RDBMS), các hệ thống tệp từ

xa và các nguồn khác. Chúng tôi sẽ dựa vào hai ứng dụng như vậy cho công việc được mô tả ở

đây. Tuy nhiên, điều quan trọng cần hiểu rõ là các lập trình viên và các quản trị viên có thể sử

dụng các công nghệ BigInsights khác để thu thập, xử lý và chuẩn bị dữ liệu cho việc phân tích

tiếp theo trong BigSheets. Các công nghệ này gồm có Jaql, Flume, Pig, Hive, các ứng dụng

MapReduce và các công nghệ khác.

IBM Watson

IBM Watson là một dự án nghiên cứu mà nó thực hiện các phân tích phức tạp để trả lời các câu

hỏi được trình bày theo một ngôn ngữ tự nhiên. Phần mềm của Watson tra cứu dữ liệu được thu

thập từ nhiều nguồn khác nhau và sử dụng Hadoop để xử lý hiệu quả dữ liệu này qua một hệ

thống các máy chủ IBM Power 750. IBM Watson đầu tiên được dùng trong một cuộc thi trò chơi

trên truyền hình vào năm 2011, đánh bại hai người chơi dẫn đầu. Xem phần Tài nguyên để biết

thêm các chi tiết về IBM Watson và chương trình trò chơi Jeopardy!.

Trước khi bắt đầu, chúng ta hãy xem xét các kịch bản ứng dụng ví dụ mẫu. Việc này đòi hỏi

phân tích dữ liệu của môi trường truyền thông xã hội về IBM Watson và, cuối cùng, nối dữ liệu

này với dữ liệu nội bộ của IBM đã mô phỏng về các nỗ lực tiếp cận môi trường truyền thông

được trích ra từ một DBMS quan hệ. Ý tưởng là khám phá khả năng hiển thị, đưa tin và "lan

truyền" xung quanh một nhãn hàng, dịch vụ hay dự án nổi bật — một yêu cầu chung trong nhiều

tổ chức. Chúng tôi sẽ không trình bày hết các khả năng phân tích cho một ứng dụng như vậy ở

đây, do ý định của chúng tôi chỉ đơn giản là nêu bật cách các khía cạnh quan trọng của BigSheets

có thể giúp các nhà phân tích bắt đầu nhanh chóng công việc với dữ liệu lớn như thế nào. Tuy

nhiên, công việc mà chúng ta sẽ tìm hiểu sẽ giúp bạn hiểu những gì là có thể với một chút nỗ lực

— và có lẽ mang đến một hay hai bất ngờ về sự nổi tiếng của IBM Watson.

Về đầu trang

Bước 1: Thu thập dữ liệu của bạn

Trước khi khởi chạy BigSheets, bạn cần một số dữ liệu dùng cho việc phân tích của mình. Trước

hết, chúng ta sẽ tập trung vào việc thu thập dữ liệu của môi trường truyền thông xã hội.

Thu thập dữ liệu của môi trường truyền thông xã hội

Như bạn có thể dự kiến, việc thu thập và xử lý dữ liệu được trích ra từ các trang web của môi

trường truyền thông xã hội có thể là thách thức, do các trang web khác nhau nắm giữ thông tin

khác nhau và sử dụng các cấu trúc dữ liệu khác nhau. Hơn nữa, việc xác định và dò tìm qua rất

nhiều các trang web cá nhân có thể rất tốn thời gian.

Ở đây, chúng tôi đã sử dụng ứng dụng ví dụ mẫu BoardReader kèm theo BigInsights để khởi

chạy một tìm kiếm về các blog, các nguồn cấp tin tức, các diễn đàn thảo luận và các trang web

video. Hình 2 minh họa các tham số đầu vào mà chúng tôi đã cung cấp cho ứng dụng

BoardReader của BigInsights, chúng tôi đã khởi chạy nó từ trang Applications (Các ứng dụng

của) giao diện bàn điều khiển Web của BigInsights. Nếu bạn chưa quen với giao diện bàn điều

khiển web và danh mục các ứng dụng mẫu của nó, hãy xem phần Tài nguyên.

Hình 2. Gọi ứng dụng BoardReader từ giao diện bàn điều khiển web BigInsights

Hãy xem xét nhanh các tham số đầu vào được hiển thị trong Hình 2. Results Path (Đường dẫn

Các kết quả) chỉ rõ thư mục của hệ thống tệp phân tán Hadoop (HDFS) với kết quả của của ứng

dụng. Các tham số tiếp theo cho biết rằng chúng tôi đã hạn chế các kết quả được trả về tới tối đa

là 25.000 kết quả phù hợp và khoảng thời gian tìm kiếm bắt đầu từ 01.01.2011 đến cuối

31.03.2012. Properties File (Tệp Đặc tính) tham khảo kho lưu trữ thông tin của BigInsights mà

chúng tôi đã điền vào bằng khóa bản quyền của BoardReader của chúng tôi. (Mỗi khách hàng

phải liên hệ với BoardReader để nhận được một khóa bản quyền hợp lệ). Và "IBM Watson" là

chủ đề tìm kiếm của chúng ta.

Sau khi chạy ứng dụng, hệ thống tệp phân tán có chứa bốn tệp mới trong thư mục kết quả, như

được hiển thị ở dưới cùng của Hình 3.

Hình 3. Kết quả của ứng dụng được lưu trữ trong BigInsights

Để giữ cho mọi thứ đơn giản, trong bài này, chúng tôi sẽ chỉ sử dụng dữ liệu tin tức và blog. Nếu

bạn muốn làm theo cùng với kịch bản ứng dụng ví dụ mẫu của chúng tôi, hãy thực hiện các ứng

dụng BoardReader với các tham số mà chúng tôi đã quy định hoặc tải về dữ liệu ví dụ mẫu. Lưu

ý rằng việc tệp tải xuống chỉ chứa một tập hợp con thông tin mà BoardReader thu thập từ các

nguồn cấp tin tức và các blog. Cụ thể là, chúng tôi đã loại bỏ nội dung toàn văn bản/HTML của

các bài đăng và các mục tin tức cũng như siêu dữ liệu cụ thể từ các tệp mẫu. Dữ liệu này không

cần thiết cho các nhiệm vụ phân tích được trình bày ở đây và chúng tôi cũng muốn giữ cho kích

cỡ của mỗi tệp ở mức dễ sử dụng.

Mỗi tệp được ứng dụng BoardReader trả về đều theo định dạng JSON. Bạn có thể hiển thị một

phần nhỏ của dữ liệu này như là văn bản trong trang Files (Các tệp) của giao diện bàn điều khiển

web của BigInsights, nhưng khó đọc các kết quả. Lúc này, bạn sẽ thấy cách chuyển đổi dữ liệu

này thành "các trang bảng tính" hoặc các bộ sưu tập dữ liệu BigSheets, đó là cách dễ hơn nhiều

để tìm hiểu. Nhưng điều đáng lưu ý là mỗi tệp có chứa một cấu trúc JSON hơi khác một chút —

Phân tích dữ liệu môi trường truyền thông xã hội và dữ liệu có cấu trúc với BigInsights InfoSphere

Chủ đề:

Tài liệu liên quan

Tài liêu mới

Xác nhận đăng nhập

Đăng nhập từ tài khoản này?

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi