intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Tìm hiểu các công cụ phân tích dữ liệu

Chia sẻ: Liễu Yêu Yêu | Ngày: | Loại File: PDF | Số trang:10

20
lượt xem
5
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết "Tìm hiểu các công cụ phân tích dữ liệu" giúp bạn đọc tìm hiểu sơ lược qua các công cụ phân tích dữ liệu tập trung vào 2 khía cạnh: Các công cụ (Có thể là thương mại) dành cho các doanh nghiệp hoặc người dùng không cần kiến thức lập trình và Ngôn ngữ lập trình dành cho người dùng có chút ít kiến thức về lập trình có thể phát huy hiệu quả phân tích dữ liệu. Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Tìm hiểu các công cụ phân tích dữ liệu

  1. TÌM HIỂU CÁC CÔNG CỤ PHÂN TÍCH DỮ LIỆU Nguyễn Thanh Trường Khoa Công nghệ Thông tin. Trường Đại học Tài chính - Marketing Email: nt.truong@ufm.edu.vn Tóm tắt: Phân tích dữ liệu (data analytics) là một quá trình kiểm tra, làm sạch, chuyển đổi và mô hình hóa dữ liệu với mục tiêu khám phá thông tin hữu ích, đưa ra kết luận và hỗ trợ việc ra quyết định. Phân tích dữ liệu có nhiều khía cạnh và cách tiếp cận, bao gồm các kỹ thuật đa dạng dưới nhiều tên gọi khác nhau và được sử dụng trong các lĩnh vực kinh doanh, khoa học và khoa học xã hội khác nhau. Trong thế giới kinh doanh ngày nay, phân tích dữ liệu đóng vai trò giúp đưa ra các quyết định khoa học hơn và giúp doanh nghiệp hoạt động hiệu quả hơn. Trong bài này, chúng ta cùng tìm hiểu sơ lược qua các công cụ phân tích dữ liệu tập trung vào 2 khía cạnh: Các công cụ (Có thể là thương mại) dành cho các doanh nghiệp hoặc người dùng không cần kiến thức lập trình và Ngôn ngữ lập trình dành cho người dùng có chút ít kiến thức về lập trình có thể phát huy hiệu quả phân tích dữ liệu. Từ khóa: Phân tích dữ liệu, data analytics 1. GIỚI THIỆU Nhu cầu ngày càng tăng và tầm quan trọng của phân tích dữ liệu trên thị trường đã tạo ra nhiều cơ hội trên toàn thế giới. Việc chọn lọc các công cụ phân tích dữ liệu hàng đầu gặp khó khăn vì các công cụ nguồn mở phổ biến hơn, thân thiện với người dùng và hướng đến hiệu suất hơn so với phiên bản trả phí. Có nhiều công cụ nguồn mở không yêu cầu bất kỳ mã hóa nào và quản lý để mang lại kết quả tốt hơn so với các phiên bản trả phí, như Lập trình R trong khai thác dữ liệu và Tableau public, Python trong trực quan hóa dữ liệu. Sau đây chúng ta cùng điểm qua một số công cụ phân tích dữ liệu hàng đầu, cả mã nguồn mở và phiên bản trả phí, dựa trên mức độ phổ biến, khả năng học hỏi và hiệu suất của chúng. 2. CÁC CÔNG CỤ PHÂN TÍCH DỮ LIỆU 2.1. Tableau Public Tableau Public là một phần mềm miễn phí kết nối bất kỳ nguồn dữ liệu nào có thể là Kho dữ liệu của công ty, Microsoft Excel hoặc dữ liệu dựa trên web và tạo trực quan hóa dữ liệu, bản đồ, bảng điều khiển, v.v. với các bản cập nhật theo thời gian thực hiển thị trên web. Chúng cũng có thể được chia sẻ thông qua phương 186
  2. tiện truyền thông xã hội hoặc với khách hàng. Nó cho phép truy cập để tải xuống tập tin ở các định dạng khác nhau. Nếu muốn thấy sức mạnh của hoạt cảnh, thì chúng ta phải có nguồn dữ liệu rất tốt. Khả năng Dữ liệu lớn của Tableau khiến chúng trở nên quan trọng và người dùng có thể phân tích và trực quan hóa dữ liệu tốt hơn bất kỳ phần mềm trực quan hóa dữ liệu nào khác trên thị trường. Các sản phẩm Tableau truy vấn cơ sở dữ liệu quan hệ, phân tích xử lý trực tuyến khối, cơ sở dữ liệu đám mây và bảng tính để tạo trực quan hóa dữ liệu kiểu đồ thị. Phần mềm cũng có thể trích xuất, lưu trữ và truy xuất dữ liệu từ một công cụ dữ liệu trong bộ nhớ. Các sản phẩm củaTableau gồm: - Tableau Desktop - Tableau Server - Tableau Online - Tableau Prep Builder (Released in 2018) - Tableau Vizable (Consumer data visualization mobile app released in 2015) - Tableau Public (free to use) - Tableau Reader (free to use) - Tableau Mobile - Tableau CRM Tableau có chức năng lập bản đồ, và có thể vẽ các tọa độ kinh độ và vĩ độ cũng như kết nối với các tập tin không gian như Esri Shapefiles, KML (Keyhole Markup Language) và GeoJSON để hiển thị địa lý tùy chỉnh. Mã hóa địa lý tích hợp cho phép các địa điểm hành chính (quốc gia, tiểu bang / tỉnh, quận / huyện), mã bưu chính, Quận Quốc hội Hoa Kỳ, CBSA / MSA của Hoa Kỳ, Mã vùng, Sân bay và các khu vực thống kê của Liên minh Châu Âu (mã NUTS) đến được ánh xạ tự động. Các khu vực địa lý có thể được nhóm lại để tạo lãnh thổ tùy chỉnh hoặc mã hóa địa lý tùy chỉnh được sử dụng để mở rộng vai trò địa lý hiện có trong sản phẩm. 2.2. SAS SAS (trước đây là “Statistical Analysis System" - Hệ thống Phân tích Thống kê) là một bộ phần mềm thống kê được phát triển 187
  3. bởi Viện SAS để quản lý dữ liệu, phân tích nâng cao, phân tích đa biến, kinh doanh tình báo, điều tra tội phạm, và phân tích dự đoán. SAS được phát triển tại Đại học Bang North Carolina từ năm 1966 cho đến năm 1976, khi Viện SAS được hợp nhất. SAS đã được phát triển thêm vào những năm 1980 và 1990 với việc bổ sung các thủ tục thống kê mới, các thành phần mới được bổ sung. Giao diện trỏ và nhấp đã được thêm vào phiên bản 9 vào năm 2004. Một sản phẩm phân tích truyền thông xã hội đã được thêm vào năm 2010. Tính đến năm 2011, bộ sản phẩm lớn nhất của SAS là dòng sản phẩm dành cho khách hàng thông minh. Nhiều mô-đun SAS dành cho web, mạng xã hội và phân tích tiếp thị có thể được sử dụng để lập hồ sơ khách hàng và khách hàng tiềm năng, dự đoán hành vi của họ cũng như quản lý và tối ưu hóa thông tin liên lạc. SAS cũng cung cấp Khung gian lận SAS. Chức năng chính của khung là giám sát các giao dịch trên các ứng dụng, mạng và đối tác khác nhau và sử dụng phân tích để xác định các điểm bất thường có dấu hiệu gian lận. SAS Enterprise GRC (Quản trị, Rủi ro và Tuân thủ) cung cấp mô hình rủi ro, phân tích kịch bản và các chức năng khác để quản lý và hình dung rủi ro, tuân thủ và các chính sách của công ty. Ngoài ra còn có bộ sản phẩm Quản lý rủi ro doanh nghiệp SAS được thiết kế chủ yếu cho các ngân hàng và tổ chức dịch vụ tài chính. 2.3. Apache Spark Apache Spark là một công cụ phân tích hợp nhất mã nguồn mở để xử lý dữ liệu quy mô lớn. Spark cung cấp một giao diện để lập trình toàn bộ các cụm với tính song song dữ liệu ngầm và khả năng chịu lỗi. Ban đầu được phát triển tại Đại học California, AMPLab của Berkeley, cơ sở mã Spark sau đó được tặng cho Tổ chức Phần mềm Apache, tổ chức này đã duy trì nó kể từ đó. Spark và các RDD (resilient distributed dataset) của nó được phát triển vào năm 2012 đáp ứng các hạn chế trong mô hình tính toán cụm MapReduce, mô hình này buộc cấu trúc luồng dữ liệu tuyến tính cụ thể trên các chương trình phân tán: Các chương trình MapReduce đọc dữ liệu đầu vào từ đĩa, ánh xạ hàm trên dữ liệu, giảm kết quả của bản đồ và lưu trữ kết quả giảm trên đĩa. Các RDD của Spark hoạt động như một tập hợp làm việc cho các chương trình phân tán cung cấp một dạng bộ nhớ dùng chung phân tán bị hạn chế. 188
  4. Spark cũng bao gồm một thư viện - MLlib, cung cấp một tập hợp các thuật toán máy tiến bộ cho các kỹ thuật khoa học dữ liệu lặp đi lặp lại như Phân loại, Hồi quy, Lọc cộng tác, Phân cụm, v.v. 2.4. Excel Excel là một công cụ phân tích cơ bản, phổ biến và được sử dụng rộng rãi hầu như trong tất cả các ngành công nghiệp. Cho dù bạn là chuyên gia về SAS, R hay Tableau, bạn vẫn sẽ cần sử dụng Excel. Excel trở nên quan trọng khi có yêu cầu phân tích dữ liệu nội bộ của khách hàng. Nó phân tích nhiệm vụ phức tạp tóm tắt dữ liệu với bản xem trước của bảng tổng hợp giúp lọc dữ liệu theo yêu cầu của khách hàng. Excel có tùy chọn phân tích kinh doanh nâng cao giúp hỗ trợ khả năng lập mô hình có các tùy chọn được tạo sẵn như phát hiện mối quan hệ tự động, tạo các thước đo DAX (Data Analysis Expressions) và phân nhóm thời gian. Excel cung cấp một số lệnh, hàm và công cụ giúp bạn dễ dàng thực hiện các tác vụ phân tích dữ liệu phức tạp. Excel cho phép bạn thực hiện các phép tính phức tạp khác nhau một cách dễ dàng. Các công cụ phân tích dữ liệu đa năng của Excel: Data Consolidation Dùng tổng hợp dữ liệu từ nhiều nguồn khác nhau và trình bày một báo cáo. Dữ liệu có thể nằm trong các trang tính của cùng một sổ làm việc hoặc trong các sổ làm việc khác nhau. Với công cụ dữ liệu Excel Consolidation, bạn có thể thực hiện việc này trong một vài bước đơn giản. What-If Analysis What-If Analysis cung cấp các công cụ để xử lý các tình huống phân tích dữ liệu sau: - Goal Seek - Data Table - Scenario Manager Tối ưu hóa với Excel Solver Add-in Solver được sử dụng để xử lý các tình huống tìm kiếm mục tiêu phức tạp. Trong những trường hợp như vậy, ngoài các đầu vào và đầu ra, sẽ có các ràng buộc hoặc giới hạn 189
  5. được xác định áp đặt đối với các giá trị đầu vào có thể có. Hơn nữa, Solver được sử dụng để tạo ra một giải pháp tối ưu. Excel có một Add-in Solver giúp bạn giải quyết những vấn đề phức tạp như vậy. Nhập dữ liệu vào Excel Phân tích dữ liệu của bạn có thể phụ thuộc vào các nguồn dữ liệu bên ngoài khác nhau. Trong Excel, bạn có thể nhập dữ liệu từ các nguồn dữ liệu khác nhau, chẳng hạn như Cơ sở dữ liệu Microsoft Access, Trang Web, Tập tin văn bản, Bảng SQL Server, Khối phân tích SQL Server, Tập tin XML, v.v. Data Model Mô hình Dữ liệu trong Excel được sử dụng để tích hợp dữ liệu từ nhiều bảng trong sổ làm việc hiện tại và / hoặc từ dữ liệu đã nhập và / hoặc từ các nguồn dữ liệu được kết nối với sổ làm việc thông qua các kết nối dữ liệu. Mô hình dữ liệu được sử dụng một cách minh bạch trong các báo cáo PivotTable, PivotChart, PowerPivot và Power View. Pivot Table Khi bạn có thể tích hợp Mô hình Dữ liệu với Pivot Table, bạn có thể thực hiện phân tích dữ liệu mở rộng bằng cách đối chiếu, kết nối, tóm tắt và báo cáo dữ liệu từ một số nguồn khác nhau. Vì bạn có thể nhập bảng từ các nguồn dữ liệu bên ngoài và tạo PivotTable, nên có thể cập nhật tự động các giá trị trong Pivot Table bất cứ khi nào dữ liệu trong các nguồn dữ liệu được kết nối được cập nhật. Power Pivot Bạn có thể sử dụng Power Pivot để truy cập, phân tích và báo cáo dữ liệu từ nhiều nguồn dữ liệu khác nhau. Power Pivot có thể giúp bạn xử lý dữ liệu lớn một cách dễ dàng và tạo ra các báo cáo phân tích hấp dẫn. PowerPivot cung cấp cho bạn các lệnh để quản lý Mô hình Dữ liệu, thêm bảng Excel vào Mô hình Dữ liệu, để thêm các trường được tính toán trong Bảng Dữ liệu, để xác định KPI, v.v. Khám phá dữ liệu với Power View Power View cung cấp tính năng khám phá tương tác, trực quan hóa và phân tích dữ liệu lớn. Nhờ các tùy chọn trực quan hóa linh hoạt, bạn chắc chắn có thể tìm thấy tùy chọn 190
  6. cung cấp cho dữ liệu của bạn nền tảng hoàn hảo, trong đó bạn có thể khám phá dữ liệu, tóm tắt và báo cáo. Khám phá dữ liệu với Hierarchies Nếu dữ liệu của bạn có cấu trúc phân cấp, chúng có thể được xác định trong Mô hình dữ liệu được phản ánh trong Power View hoặc xây dựng cấu trúc phân cấp trong chính Power View. 3. CÁC NGÔN NGỮ LẬP TRÌNH PHÂN TÍCH DỮ LIỆU 3.1. Lập trình R R là công cụ phân tích hàng đầu trong ngành và được sử dụng rộng rãi để thống kê và lập mô hình dữ liệu. Nó có thể dễ dàng thao tác dữ liệu của bạn và trình bày theo nhiều cách khác nhau. Nó đã vượt quá SAS theo nhiều cách như dung lượng dữ liệu, hiệu suất và kết quả. R biên dịch và chạy trên nhiều nền tảng viz - UNIX, Windows và MacOS. Nó có 11.556 gói và cho phép bạn duyệt các gói theo danh mục. R cũng cung cấp các công cụ để tự động cài đặt tất cả các gói theo yêu cầu của người dùng, cũng có thể được lắp ráp tốt với Dữ liệu lớn. R là một ngôn ngữ và môi trường cho tính toán thống kê và đồ họa. Đây là một dự án GNU tương tự như ngôn ngữ và môi trường S được phát triển tại Phòng thí nghiệm Bell (trước đây là AT&T, nay là Lucent Technologies) bởi John Chambers và các đồng nghiệp. R có thể được coi là một cách triển khai khác của S. Có một số khác biệt quan trọng, nhưng nhiều mã được viết cho S chạy không thay đổi dưới R. R cung cấp nhiều loại thống kê (mô hình tuyến tính và phi tuyến, kiểm tra thống kê cổ điển, phân tích chuỗi thời gian, phân loại, phân cụm, …) và các kỹ thuật đồ họa, và có khả năng mở rộng cao. Ngôn ngữ S thường là phương tiện được lựa chọn để nghiên cứu phương pháp luận thống kê và R cung cấp một lộ trình Nguồn mở để tham gia vào hoạt động đó. Một trong những điểm mạnh của R là sự dễ dàng có thể tạo ra các ô chất lượng xuất bản được thiết kế tốt, bao gồm các ký hiệu và công thức toán học nếu cần. Sự cẩn thận đã được thực hiện đối với các mặc định cho các lựa chọn thiết kế nhỏ trong đồ họa, nhưng người dùng vẫn có toàn quyền kiểm soát. 191
  7. R có sẵn dưới dạng Phần mềm Miễn phí theo các điều khoản của Giấy phép Công cộng GNU của Tổ chức Phần mềm Tự do ở dạng mã nguồn. Nó biên dịch và chạy trên nhiều nền tảng UNIX và các hệ thống tương tự (bao gồm FreeBSD và Linux), Windows và MacOS. R analytics (hoặc ngôn ngữ lập trình R) là một phần mềm mã nguồn mở miễn phí được sử dụng cho tất cả các loại dự án khoa học dữ liệu, thống kê và trực quan hóa. Ngôn ngữ lập trình R mạnh mẽ, linh hoạt và có thể được tích hợp vào các nền tảng BI (Business intelligence), để giúp bạn tận dụng tối đa dữ liệu quan trọng của doanh nghiệp. Những tích hợp này bao gồm mọi thứ từ các chức năng thống kê đến các mô hình dự đoán, chẳng hạn như hồi quy tuyến tính. R cũng cho phép xây dựng và chạy các mô hình thống kê bằng cách sử dụng dữ liệu Sisense, tự động cập nhật các mô hình này khi thông tin mới chảy vào mô hình. Ngôn ngữ được xây dựng đặc biệt cho phân tích thống kê và khai thác dữ liệu. R analytics không chỉ được sử dụng để phân tích dữ liệu mà còn để tạo ra phần mềm và ứng dụng có thể thực hiện phân tích thống kê một cách đáng tin cậy. Ngoài các công cụ thống kê tiêu chuẩn, R bao gồm một giao diện đồ họa. Do đó, nó có thể được sử dụng trong một loạt các mô hình phân tích bao gồm các thử nghiệm thống kê cổ điển, mô hình tuyến tính / không tuyến tính, phân nhóm dữ liệu, phân tích chuỗi thời gian, … Các nhà thống kê thích sử dụng R vì nó tạo ra các biểu đồ và đồ họa sẵn sàng để xuất bản, với ký hiệu và công thức toán học chính xác. Nó khá phổ biến vì các hình ảnh trực quan của nó: đồ thị, biểu đồ, hình ảnh, … Các nhà phân tích BI có thể sử dụng các loại hình ảnh trực quan này để giúp mọi người hiểu xu hướng, ngoại lệ và các mẫu trong dữ liệu. Một lý do khác cho sự phổ biến của nó là tập lệnh dòng lệnh của nó cho phép người dùng lưu trữ các phương pháp phân tích phức tạp theo từng bước, để được sử dụng lại sau này với dữ liệu mới. Thay vì phải cấu hình lại bài kiểm tra, người dùng có thể gọi lại nó một cách đơn giản. Điều này làm cho nó hữu ích cho các mục đích xác nhận và xác nhận. Các nhà nghiên cứu có thể khám phá các mô hình thống kê để xác nhận chúng hoặc kiểm tra công việc hiện có của họ để tìm các lỗi có thể xảy ra. Mặc dù được biết đến như một ngôn ngữ phức tạp hơn, nhưng nó vẫn là một trong những ngôn ngữ phổ biến nhất để phân tích dữ liệu. 192
  8. Quan trọng hơn, việc sử dụng R thay vì phần mềm đóng gói có nghĩa là các công ty có thể xây dựng các cách để kiểm tra lỗi trong các mô hình phân tích trong khi dễ dàng sử dụng lại các truy vấn hiện có và phân tích đặc biệt. Trong học thuật và các lĩnh vực thiên về nghiên cứu hơn, R là một công cụ vô giá, vì những lĩnh vực nghiên cứu này thường yêu cầu mô hình độc đáo và cụ thể cao. Ví dụ nhỏ về cách viết một chương trình: Tính tổng bình phương (sum of squares): 12 + 22 + 32 + 42 + 52 = ? Thay vì chúng ta khai báo các biến và dùng vòng lặp for để tính tổng theo cách lập trình thông thường thì với R ta thực hiện: > x x x sum(x^2) [1] 55 > 3.2. Python Python là một ngôn ngữ kịch bản hướng đối tượng, dễ đọc, viết, bảo trì và là một công cụ mã nguồn mở miễn phí. Nó được phát triển bởi Guido van Rossum vào cuối năm 1980, hỗ trợ cả phương pháp lập trình chức năng và cấu trúc. Phython rất dễ học vì nó rất giống với JavaScript, Ruby và PHP. Ngoài ra, Python có các thư viện máy học rất tốt. Scikitlearn, Theano, Tensorflow và Keras. Một tính năng quan trọng khác của Python là nó có thể được lắp ráp trên bất kỳ nền tảng nào như máy chủ SQL, cơ sở dữ liệu MongoDB hoặc JSON. Python cũng có thể xử lý dữ liệu văn bản rất tốt. Python là một công cụ ngày càng phổ biến để phân tích dữ liệu. Trong những năm gần đây, một số thư viện đã đạt đến độ chín muồi, cho phép người dùng R và Stata tận dụng vẻ đẹp, tính linh hoạt và hiệu suất của Python mà không phải hy sinh chức năng mà các chương trình cũ này đã tích lũy trong nhiều năm. Python là một ngôn ngữ lập trình đa mục đích phổ biến được sử dụng rộng rãi vì tính linh hoạt của nó, cũng như bộ sưu tập thư viện phong phú của nó, có giá trị cho phân tích và tính toán phức tạp. 193
  9. Khả năng mở rộng của Python có nghĩa là nó có hàng nghìn thư viện dành riêng cho phân tích, bao gồm cả Thư viện phân tích dữ liệu Python được sử dụng rộng rãi (còn được gọi là Pandas). Đối với hầu hết các phần, các thư viện phân tích dữ liệu trong Python ít nhất phần nào có nguồn gốc từ thư viện NumPy, bao gồm hàng trăm phép tính toán học, phép toán và hàm. Các công cụ phân tích Python đã trở nên phổ biến do ngôn ngữ máy tính được áp dụng rộng rãi và tính linh hoạt của nó khi phát triển các giải pháp đa diện. Ngoài ra, khả năng hiệu suất của Python cao hơn nhiều so với các ngôn ngữ phổ biến khác được sử dụng trong phân tích dữ liệu và khả năng tương thích của nó với nhiều ngôn ngữ khác có nghĩa là nó đơn giản là thuận tiện hơn trong hầu hết các trường hợp. Việc sử dụng tương đối nhẹ bộ nhớ và các tài nguyên xử lý khác của Python có nghĩa là nó có thể nhanh chóng vượt xa các ngôn ngữ như MatLab hoặc R, những ngôn ngữ được xây dựng đặc biệt cho phân tích thống kê. Cách thức sử dụng Python để phân tích dữ liệu: - Một trong những cách sử dụng phổ biến nhất của Python là khả năng tạo và quản lý cấu trúc dữ liệu một cách nhanh chóng - chẳng hạn như Pandas cung cấp rất nhiều công cụ để thao tác, phân tích và thậm chí biểu diễn cấu trúc dữ liệu và bộ dữ liệu phức tạp. Điều này bao gồm chuỗi thời gian và các cấu trúc dữ liệu phức tạp hơn như hợp nhất, xoay vòng và các bảng cắt để tạo ra các khung nhìn và quan điểm mới trên các tập hợp hiện có. - Cách khác, các công cụ như Scikit-Learn (còn được gọi là Sklearn) cung cấp các công cụ phân tích nâng cao kết hợp với khả năng máy học phức tạp. Điều này cho phép người dùng xây dựng các mô hình phức tạp hơn, thực hiện các phép hồi quy đa biến và phức tạp hơn, cũng như tiền xử lý dữ liệu. Được kết hợp với các thư viện như iPython và chính NumPy, những công cụ này có thể tạo thành nền tảng của một bộ phân tích dữ liệu mạnh mẽ. - Ngoài ra, người dùng có thể sử dụng Python để viết các thuật toán phân tích dữ liệu của riêng mình có thể được tích hợp trực tiếp vào các công cụ kinh doanh thông minh của mình thông qua API. Ví dụ nhỏ về cách viết một chương trình: In dãy Fibonacci bằng python: 194
  10. Thay vì chúng ta khai báo các biến và gán từng biến, dùng hoán vị hoặc dùng đệ quy để xuất dãy Fibonacii theo cách lập trình thông thường thì với R ta thực hiện: >>> a, b=0,1 >>> while a>> a, b=0,1 >>> while a
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
3=>0