Phân tích Business

Intelligence dựa trên Big Data

Các doanh nghiệp và khách hàng toàn cầu ngày càng thay đổi. Nó không chỉ còn là

dữ liệu khách hàng. Mục đích của một nền tảng phân tích Big Data và Business

Intelligence tích hợp là khai thác sâu hơn các câu hỏi vì sao, ở đâu, cái gì và như

thế nào về khách hàng, sản phẩm và công ty. Bài này sẽ thảo luận về việc tích hợp

Business Intelligence và phân tích Big Data.

Hệ thống doanh nghiệp trên thế giới đang thay đổi, sự năng động của khách hàng

đang thay đổi, và chính khách hàng cũng đang thay đổi. Tất cả đang chạy đua để

tìm ra lý do cho câu hỏi tại sao thay vì tìm ra đó là ai và sự việc đó như thế nào. Nó

không còn đơn thuần chỉ để hiểu làm thế nào một công ty có những bước chuyển

đổi từ A đến B. Các doanh nghiệp đang ở trong một cuộc chiến cạnh tranh thời

gian thực để biết khi khách hàng mua một cái gì đó, họ mua ở đâu, và những gì họ

đang suy nghĩ trước khi họ bước vào một cửa hàng hoặc truy cập vào một website.

Sức mạnh của Big Data, phân tích Big Data (Big Data analytics), nền tảng

Business Intelligence (BI) tích hợp và phân tích Big Data có thể giúp doanh nghiệp

làm được điều đó.

Lĩnh vực phân tích Big Data và BI vẫn còn mới. Làm thế nào để tích hợp các khái

niệm tương đồng nhưng khác nhau? Nó không chỉ còn là về dữ liệu hoặc công

nghệ, mà đó là tất cả mọi thứ — truyền thông mạng xã hội, hành vi của khách

hàng, và phân khúc khách hàng, những điều đó cũng chỉ là một vài đặc trưng mà

thôi. Bạn không thể dựa vào trong một số ứng dụng Big Data và mong muốn nhìn

thấy tương lai được. Cả BI, quản lý dữ liệu chủ (MDM - Master Data Mangement),

Big Data, và khả năng phân tích phải được tích hợp vào cùng một nền tảng, và

triển khai thành một giải pháp trực quan sáng tạo.

Điểm tương đồng và khác biệt giữa BI và Big Data analytics

BI không phải là một khái niệm mới. Data warehouses, data mining, và các công

nghệ database đã hiện hữu trong các hình thức khác nhau trong nhiều năm. Big

data có thể là một thuật ngữ mới, nhưng nhiều chuyên gia IT đã làm việc với dữ

liệu lớn trong các ngành khác nhau trong nhiều năm qua.

Tuy nhiên bây giờ Big Data không chỉ là về dữ liệu lớn. Điểm mới ở đây là đi sâu

và phân tích dữ liệu bán cấu trúc và phi cấu trúc. 15 năm trước, chúng ta không

phân tích các email, tập tin PDF, hoặc video. Có cảm giác như Internet chỉ mới

xuất hiện gần đây thôi; và điện toán phân tán cũng chỉ mới ra đời ngày hôm qua,

nhưng điểm mới ở đây là khả năng phổ biến và mở rộng hệ thống chỉ trong chớp

mắt — thậm chí đối với một ngân sách hạn hẹp. Tương tự như vậy, muốn dự đoán

tương lai không phải là một khái niệm mới, nhưng điểm mới chính là có thể truy

cập và lưu trữ tất cả các dữ liệu được tạo ra.

Có nhiều thông tin cho rằng 90 phần trăm các dữ liệu tồn tại ngày nay là từ hai

năm trước. Và dữ liệu đang tăng trưởng nhanh. Nếu 90 phần trăm tất cả dữ liệu

trên toàn thế giới được tạo ra trong hai năm qua thì ta có thể nói gì về dữ liệu đó?

Nhiều doanh nghiệp có nhiều cơ sở dữ liệu và nhiều nhà cung cấp cơ sở dữ liệu,

với nhiều terabyte hoặc thậm chí petabyte dữ liệu. Một số các hệ thống tích lũy dữ

liệu trên 30 hoặc 40 năm. Nhiều doanh nghiệp xây dựng toàn bộ kho dữ liệu và nền

tảng phân tích ra dữ liệu cũ này. Tập đoàn bán lẻ lớn như Wal-Mart, đã trở thành

công ty tỷ đô la trước thời Big Data. Vì vậy, dữ liệu không phải là yếu tố quyết

định chính mà chính là cách thức kinh doanh của họ.

Dữ liệu như một dịch vụ có thể điều khiển một doanh nghiệp. Tuy nhiên hãy suy

nghĩ về Amazon. Đó là một công ty thương mại điện tử trực tuyến. Bây giờ, mọi

người nhìn vào Amazon như là một công ty cung cấp nền tảng dịch vụ, phần mềm,

Big Data, và trung tâm dữ liệu điện toán đám mây. Trong những năm qua, Amazon

xây dựng giới thiệu các công cụ đáng kinh ngạc từ các công nghệ mã nguồn mở

khác nhau. Zynga, công ty game Facebook được biết đến với tựa game ăn khách

Farmville, đã sử dụng các dịch vụ đám mây của Amazon để mở rộng cơ sở dữ liệu

và phân tích riêng của mình.

Đối với dữ liệu có ích cho người dùng, nó phải tích hợp với tài chính của khách

hàng và dữ liệu bán hàng, với các sản phẩm dữ liệu, với các tiếp thị dữ liệu, truyền

thông xã hội, với các dữ liệu nhân khẩu học, với các dữ liệu đối thủ cạnh tranh, và

nhiều hơn nữa.

Những thách thức trong việc xây dựng một hệ thống BI và Big data analytics

Thiết kế một nền tảng tích hợp không bao giờ là dễ dàng. Extract, Transfer, và

Load (ETL) luôn luôn là giai đoạn dài nhất trong các dự án Data Warehouse. Có

nhiều giải pháp ETL khác nhau, đôi khi chúng có tác dụng, đôi khi không. Nếu

ETL không được thực hiện tốt, thì bạn ngẫu nhiên bạn sẽ có dữ liệu không chính

xác và không tin cậy. Dữ liệu không tin cậy sẽ tạo ra một hệ thống không đáng tin

và không sử dụng được. Tất nhiên chẳng ai muốn điều đó cả.

Có thể bạn sẽ dễ dàng nghĩ rằng đây có thể một thứ gì đó giống như một cơ sở dữ

liệu sản phẩm. Nhưng nó sẽ trở thành một trò chơi với nhiều phiên bản, lỗi, bản

cập nhật, bản phát hành khác nhau, chu kỳ phát hành khác nhau, giấy phép khác

nhau, và giấy phép khác nhau dựa trên địa điểm. Và đó chỉ là trong một công ty

với một vài sản phẩm. Nó sẽ trở nên phức tạp hơn trong trường hợp các công ty

bán lẻ có hàng ngàn sản phẩm khác nhau.

Nền tảng Big Data và BI tích hợp có thể có dữ liệu phi cấu trúc từ các email.

Chúng có thể bao gồm dữ liệu bán cấu trúc từ các bản ghi log. Hệ thống Email có

thể được phân tán trong cơ sở dữ liệu khác nhau trong nhiều trung tâm dữ liệu trên

toàn cầu. Trong một dự án, việc tích hợp thêm vài tường lửa, hay đột nhiên di

chuyển dữ liệu từ nơi này sang nơi khác cũng là một cơn ác mộng. Trong một dự

án khác, hệ thống bản ghi log có thể là phi định dạng, bán định dạng hoặc một mớ

hỗn độn.

Có một lý do mà tại sao các công nghệ Big data như Apache Hadoop khuyến khích

di chuyển hệ thống đến nơi có dữ liệu thay vì di chuyển dữ liệu vào hệ thống. Phải

mất thời gian để di chuyển dữ liệu qua đường mạng, giữa các bức tường lửa. Bạn

có thể bị mất dữ liệu, các gói dữ liệu, tập tin. Độ tin tưởng sẽ trở thành một vấn đề

lớn.

Một khái niệm cốt lõi của NoSQL và Hadoop là để di chuyển các ứng dụng đến dữ

liệu, ngoại trừ việc điều này không phải là đơn giản. Nếu bạn có 100 hệ thống khác

nhau, bạn có thêm vào 100 trường hợp của cùng một ứng dụng cho mỗi hệ thống

không? Mặc dù một số người nghĩ rằng họ có thể làm chủ MDM, nhưng thực ra là

chẳng có ai cả. Khi bạn có một sản phẩm MDM, MDM bán hàng, và một khách

hàng MDM mà không tích hợp hoặc tham gia dễ dàng, việc thêm một ứng dụng

vào mỗi hệ thống không có nghĩa là tích hợp hay tham gia vào chúng. Nó vẫn là

một hệ thống với nhiều rào cản mà không ai có thể kết nối.

Ngay cả khi một doanh nghiệp được cài đặt một ứng dụng Big Data trên một nền

tảng hoàn hảo mà có thể tích hợp và kết nối với các dạng khác nhau của dữ liệu, thì

cũng sẽ có lúc xảy ra những vấn đề nghiêm trọng. Sự thật là bạn không thể đột

nhiên chạy các thuật toán phức tạp trên một hệ thống mà người dùng đang sử dụng.

Điều này có thể thất bại. Nó có thể làm chậm hiệu suất thực thi. Nó có thể lấy hết

dữ liệu. Có thể có vấn đề bảo mật. Cài đặt một ứng dụng yêu cầu một lượng lớn

không gian, bộ nhớ và tốc độ có thể khiến một hệ thống cũ hỏng hóc. Thậm chí nó

có thể không hoạt động chính xác trên hệ thống cũ. Nếu nó hoạt động, nó có gì

khác so với hệ thống đang tồn tại không, bạn chọn MDM không kết nối hay hệ

thống BI?

Một nền tảng BI và Big Data analytics cần sự sáng tạo. Nó phải là thế hệ tiếp theo.

Nó phải sử dụng công nghệ trong bộ nhớ hoặc cấu hình một hệ thống sử dụng các

công cụ như Hadoop và Apache Cassandra như area, sandbox, hệ thống lưu trữ và

có một hệ thống ETL mới và cải tiến. Nó phải tích hợp dữ liệu cấu trúc, phi cấu

trúc và bán cấu trúc. Có rất nhiều phần trong bài toán khó này.

Giải pháp

Một nền tảng BI tích hợp và Big Data analytics là một hệ thống khác nhau. Bạn có

quyền lựa chọn việc mua hay tự xây dựng. Bạn phải xem xét các hệ thống hiện có,

các trường hợp sử dụng, mức độ kinh nghiệm và năng lực của nhân viên của bạn.

Một số công ty có thể muốn xây dựng một hệ thống mã nguồn mở chỉ sử dụng

Hadoop (Hadoop Distributed File System [HDFS] và MapReduce), Zookeeper,

Solr, Sqoop, Hive, HBase, Nagios, và Cacti, trong khi người khác có thể tìm kiếm

hỗ trợ nhiều hơn và cố gắng xây dựng một hệ thống sử dụng IBM ® InfoSphere ®

BigInsights ™ và IBM Netezza. Các công ty khác có thể muốn tách dữ liệu có cấu

trúc và phi cấu trúc, và xây dựng một giao diện (GUI) lớp người dùng đồ họa cho

người dùng bình thường, người dùng có nhiều quyền hạn, và các ứng dụng.

Nó thực sự phụ thuộc vào công ty. Và nó không chỉ là một hệ thống plug-and-play.

Mặc dù bạn quyết định mua hay tự xây dựng thì ở mỗi cấp độ đều có những phần

khác nhau.

ETL

ETL, giai đoạn hiện thực và kiểm soát dữ liệu, và tất cả quá trình liên quan luôn

luôn là một bước tiến quan trọng đầu tiên. Bạn không thể đặt ứng dụng Big Data

vào một hệ thống giao dịch và mong muốn mọi thứ hoạt động mà không làm ảnh

hưởng hệ thống ban đầu, hay mong đợi nó tích hợp tốt với mọi thứ khi mà hệ

thống vẫn đang hoạt động. Do đó, một số dữ liệu cần được đưa vào Hadoop hay

bất cứ hệ thống noSQL nào khác hay một Data Warehouse xử lý song song (MPP).

Có nhiều công cụ và phương pháp để làm việc này, và hầu hết chúng phụ thuộc

vào hệ thống, mã nguồn, dữ liệu, kích thước và nhân lực.

Bạn có thể bắt đầu với Sqoop. Nó là một công cụ tuyệt vời để xử lý dữ liệu từ hệ

thống quản lý cơ sở dữ liệu quan hệ. Bổ sung thêm các công cụ mã nguồn mở khác

như Flume hoặc Scribe có hỗ trợ ghi log. Ngoài ra còn có các công cụ ETL như

Talend hoặc IBM InfoSphere DataStage ®, cả hai đều đã tích hợp Big Data.

Những công cụ này trực quan hơn và không cần phải có một tiến sĩ máy tính để

xây nên cơ sở hạ tầng. Cả hai công cụ cung cấp các tài liệu kỹ thuật, các bản cập

nhật, và giao diện trực quan, chúng luôn được cải thiện, và đang được sử dụng

trong nhiều ngành công nghiệp và trong các doanh nghiệp.

Một số công ty chỉ thích dùng mã nguồn mở. Các công ty khác có thể có nhiều hệ

thống được xây dựng trên các sản phẩm IBM khác nhau. Rõ ràng, tích hợp những

gì đã được sử dụng với các công nghệ mới là một việc quan trọng cần xem xét.

Đó là thời gian bạn dành để xây dựng hệ thống ETL, và thật đáng buồn nếu kết quả

không như bạn mong đợi. Hadoop có nhiều thành phần mà bạn có thể cần tới hơn

là Sqoop. Việc tích hợp và bổ sung nhiều thành phần có thể gây phản tác dụng, đặc

biệt là nếu bạn không có kinh nghiệm và kiến thức hoặc muốn tự xây dựng công cụ

ETL. Quá trình này đòi hỏi thời gian và sự kiên nhẫn. Có thể bạn cũng sẽ gặp

nhiều trở ngại. Bạn có thể sử dụng một công cụ mã nguồn mở cho các cộng đồng

sau này. Hoặc bạn có thể cấu hình và phát triển các công cụ ETL của riêng mình

với các ứng dụng nội bộ khác nhau và các công cụ mã nguồn mở, và sau đó, nếu

cộng đồng mã nguồn mở có những thay đổi hay một vài nhân viên phát triển của

bạn không còn làm việc nữa, lúc này tự dưng bạn sẽ có một hệ thống mà chẳng ai

biết cách để duy trì hay sửa chữa.

Các doanh nghiệp khôn ngoan tập trung vào nhân viên, kinh nghiệm, ngân sách,

tiềm năng và thực tế của họ. Ví dụ, nếu một doanh nghiệp có đội ngũ nhân viên IT

tương đối nhỏ thì việc so sánh cách xây dựng hệ thống với Google hay Facebook

chưa phải là một ý tưởng tốt. Đừng bao giờ so sánh công ty nhỏ của bạn với các

công ty có đã có sẵn hệ thống máy chủ và các chuyên gia máy tính làm việc trên

những hệ thống và cơ sở hạ tầng cụ thể. Đôi khi, sử dụng dịch vụ điện toán đám

mây hoặc nhân viên bên ngoài có thể là lựa chọn duy nhất. Những lần khác, các

thiết bị Big Data như Netezza chính là lựa chọn tốt nhất.

Lưu trữ

Lưu trữ dữ liệu là một yếu tố rất lớn và có thể yêu cầu bạn sử dụng nhiều công

nghệ khác nhau. Trong hệ thống Hadoop, ta có HBase. Nhưng một số công ty sử

dụng Cassandra, Neo4j, Netezza, HDFS, và các công nghệ khác, tùy thuộc vào

những gì cần thiết. HDFS là một hệ thống lưu trữ tập tin. HBase là một hệ thống

lưu trữ theo cột (column) tương tự như Cassandra. Nhiều công ty sử dụng

Cassandra cho việc phân tích gần hơn với thời gian thực. Tuy nhiên HBase cũng

đang ngày càng được phát triển.

Bạn có thể xem xét giữa HBase hoặc Cassandra khi muốn sử dụng một hệ thống

quản lý cơ sở dữ liệu mã nguồn mở cho việc phân tích Big Data. Theo các nền tảng

Data Warehouse, Netezza là một trong những công nghệ hàng đầu trong công nghệ

phân tích và BI. Sự lựa chọn tốt nhất để tích hợp Big Data là sử dụng một nền tảng

tích hợp bao gồm Hadoop và Cassandra cho dữ liệu phi cấu trúc hoặc bán cấu trúc

và Netezza cho dữ liệu có cấu trúc.

IBM Netezza Customer Intelligence Appliance kết hợp một số công nghệ khác

nhau vào một nền tảng. Ở lớp trên cùng, đó là lớp người dùng, nó dựa trên phần

mềm IBM Cognos® BI, một sản phẩm phân tích và báo cáo kinh doanh thông

minh. Cognos BI là một sản phẩm ấn tượng mà nhiều doanh nghiệp sử dụng cho

nhiều mục đích BI khác nhau và Data Warehouse. Tại các kho dữ liệu lớp lưu trữ,

Netezza là công cụ tuyệt vời cho hệ thống cơ sơ dữ liệu MPP. Hệ thống này hướng

đến dữ liệu có cấu trúc, nhưng khi sử dụng Hadoop hoặc Cassandra cho dữ liệu phi

cấu trúc và bán cấu trúc bạn tạo ra một nền tảng tích hợp BI và Big Data analytics.

Giao diện người dùng (GUI)

Tại lớp đầu cuối và giao diện đồ họa người dùng (GUI), có nhiều phần khác nhau

trong hệ thống. Người dùng có quyền hạn có thể sử dụng các công cụ như IBM

SPSS® Statistics, hoặc phiên bản R, để khai phá dữ liệu, mô hình dự báo, máy học,

và xây dựng các thuật toán phức tạp và điển hình. Các nhân viên kinh doanh của

bạn có thể sử dụng các công cụ như Cognos để làm các báo cáo BI, báo cáo Big

Data, biểu đồ, và các bảng thống kê. Cognos là một công cụ tuyệt vời cung cấp cho

người dùng nhiều cách khác nhau để khám phá dữ liệu hay xem các báo cáo đơn

giản.

Có nhiều phần trong giao diện GUI và lớp đầu cuối (front-end), như các công cụ

máy học (ví dụ như Apache Mahout) hay Apache Hive (dùng ngôn ngữ truy vấn có

cấu trúc - Structured Query Language - SQL), nhưng những công cụ cũng có thể là

một phần của cơ sở hạ tầng. Yếu tố lớn nhất là tích hợp dữ liệu có cấu trúc và phi

cấu trúc như một phần của cơ sở hạ tầng BI, Data Warehouse, và Big Data

analytics. Đó có phải là dịch vụ không? Và đối tượng người dùng là ai?

Người dùng không quan tâm đến cơ sở hạ tầng. Họ cũng không quan tâm tới việc

tích hợp của nó. Họ chỉ quan tâm đến việc nhận được xữ liệu ở thời điểm thích

hợp.

Kết luận

Tích hợp BI và big data analytics là nhiệm vụ không dễ dàng. Mục đích của bất kỳ

hệ thống dữ liệu hay phân tích là làm cho dữ liệu trở nên hữu ích và có tính sẵn

sàng cao cho người dùng. Ứng dụng Big data là một trong những cách làm được

điều đó. Còn hệ thống mã nguồn mở Hadoop là một hướng khác. Nhưng cả hai đều

đòi hỏi thời gian, sự kiên nhẫn và sáng tạo.

Một hệ thống mã nguồn mở là giải pháp nhanh và ít tốn kém để thực hiện, nhưng

bạn cần một đội ngũ nhân viên có kinh nghiệm. Nếu bạn không có kinh nghiệm

trong lĩnh vực Big Data, thì tốt nhất là bạn nên thuê một công ty chuyên về Big

Data làm cho bạn, mặc dù có thể hơi tốn kém. Hãy nhớ rằng không phải ai cũng

muốn mở công ty làm về phần mềm hay phần cứng. Đôi khi việc xây dựng một

nền tảng BI tích hợp và Big Data đòi hỏi phải tốn chi phí mua và phát triển ở nơi

bạn cần tới.