56
CÔNG CỤ ỨNG DỤNG PHÂN TÍCH DỮ LIỆU CHO DOANH NGHIỆP
Nguyễn Chí Đạt
Phòng Công nghệ Thông tin, Trường Đại học Tài chính Marketing
Email: nguyenchidat@ufm.edu.vn
Tóm tắt: Nghề phân tích dữ liệu nói riêng cơ sở dữ liệu nói chung đang một trong
những nghề nóng và phát triển nhanh trên toàn thế giới cùng với dữ liệu lớn, trí tuệ nhân tạo, vạn
vật kết nối. Bài viết tìm hiểu v nghề phân tích dữ liệu, các số liệu cần phân tích, cũng như m hiểu
các phần mềm hỗ trợ cho việc phân tích dữ liệu.
Từ khóa: phân tích dữ liệu, phần mềm phân tích dữ liệu, data analytics
1. PHÂN TÍCH DỮ LIỆU LÀ GÌ?
Phân tích dữ liệu một quá trình kiểm tra, làm sạch, chuyển đổimô hình hóa dữ
liệu với mục tiêu khám phá thông tin hữu ích, thông báo kết luận hỗ trợ ra quyết định.
Phân tích dữ liệu nhiều khía cạnh cách tiếp cận, bao gồm các kỹ thuật đa dạng dưới
nhiều tên khác nhau và được sử dụng trong các lĩnh vực kinh doanh, khoa học và khoa học
xã hội khác nhau. Trong thế giới kinh doanh ngày nay, phân tích dữ liệu đóng vai trò giúp
đưa ra quyết định khoa học hơn và giúp doanh nghiệp hoạt động hiệu quả hơn.
Khai thác dữ liệu một kỹ thuật phân tích dữ liệu cụ thể tập trung vào hình thống
khám phá tri thức cho mục đích dự đoán thay hoàn toàn tả, trong khi kinh doanh
thông minh bao gồm phân tích dữ liệu dựa chủ yếu vào tổng hợp, tập trung chủ yếu vào
thông tin kinh doanh.[2]
Trong các ứng dụng thống kê, phân tích dữ liệu thể được chia thành thống kê mô
tả, phân tích dữ liệu khám phá (EDA) và phân tích dữ liệu xác nhận (CDA). EDA tập trung
vào việc khám phá các tính năng mới trong dữ liệu trong khi CDA tập trung vào xác nhận
hoặc làm sai lệch các giả thuyết hiện có. Phân tích dự đoán tập trung vào việc áp dụng các
hình thống để dự báo hoặc phân loại dđoán, trong khi phân tích văn bản áp dụng
các kỹ thuật thống kê, ngôn ngữ cấu trúc để trích xuất phân loại thông tin từ các nguồn
văn bản, một loại dữ liệu phi cấu trúc. Tất cả các phương thức bên trên các dạng khác
nhau của phân tích dữ liệu.
Tích hợp dữ liệu là tiền thân của phân tích dữ liệu, và phân tích dữ liệu được liên kết
chặt chẽ để trực quan hóa dữ liệu và phổ biến dữ liệu.
57
2. PHÂN TÍCH DỮ LIỆU LÀM GÌ?
Chuyên viên phân tích dữ liệu (Data Analyst) là người thực hiện các phân tích sâu dữ
liệu (deep dive analytics) dạng đồ thị, biểu đồ, đồ, bảng biểu báo cáo; sau đó sử
dụng các dữ liệu đó để xác định xu ớng tạo hình dự đoán những thể xảy ra
trong tương lai. Các ng việc chính bao gồm sử dụng các công cụ lắng nghe Internet để
thu thập dữ liệu từ các nguồn tin tức mạng xã hội, phân tích dữ liệu và viết báo cáo, phân
tích thông tin về thương hiệu và các vấn đề xã hội, dự o nắm bắt xu hướng trong tương
lai, trình bày các nội dung trên bằng bảng số liệu, biểu đồ, bản đồ và đề xuất các hình thức
minh họa hợp khác, tối ưu các chiến dịch Marketing, Sales dựa trên dữ liệu đã thu thập
được, báo cáo thường xuyên cho quản lý và tương tác trực tiếp với khách hàng về diễn biến
các sự kiện liên quan tới thương hiệu khách hàng.
Yêu cầu công việc thường đòi hỏi tốt nghiệp đại học các ngành liên quan như Digital
Marketing, Market Research, Toán, Khoa học máy tính, Quản trị thông tin, Công nghệ
thông tin, Thống kê, ... Kỹ năng sử dụng các công cụ phân tích dữ liệu code bản để
xử các hình dự báo (predictive models), kỹ năng sử dụng các công cụ visualize để
chuyển hóa dữ liệu thành graphics, kỹ năng chuyển hóa dữ liệu thành actionable insight, có
kỹ năng phân tích sắc bén, khả năng thu thập, tổ chức, phân tích phổ biến lượng lớn
thông tin một cách chi tiết và chính xác, kỹ năng lập kế hoạch, kiểm soát việc thực hiện kế
hoạch, Cẩn thận, kiên nhẫn, chịu khó, ham học hỏi, có tinh thần trách nhiệm, ham học hỏi,
trung thực, cẩn thận, nhạy bén với xu thế xã hội.
3. CÁC LOẠI SỐ LIỆU CẦN PHÂN TÍCH
Dữ liệu phân tích được chia thành bốn loại cơ bản sau:
Descriptive analytics (phân tích tả): Đây quá trình phân tích dựa trên khoảng
thời gian nhất định. Dựa trên số lượt xem trang, Doanh số tháng này
Diagnostic analytics (phân tích chuẩn đoán): Tập trung vào phân tích chuyên sâu, tại
sao xảy ra. Điều y liên quan đến đầu o dữ liệu một vài giả thuyết. Thời tiết
ảnh hưởng đến doanh số bán bia không? Chiến dịch tiếp thị có ảnh hưởng đến doanh số
không?
Predictive analytics (phân tích dự báo): Dự đoán điều gì xảy ra trong tương lai. Điều
đó có gây ảnh hưởng tới doanh số cuối cùng? Có bao nhiêu mô hình dự báo kết quả?
58
Prescriptive analytics (phân tích chuẩn đoán): Giúp bạn đưa đến kết luận quá trình
hoạt động có đang thực sự hiệu quả.
Một số lĩnh vực đã áp dụng phân tích dữ liệu bao gồm ngành bán hàng, du lịch
khách sạn, bất động sản… nơi công việc chồng chéo mà không thể tổng hợp xử lý nhanh
chóng. Thu thập dữ liệu khách hàng và tìm ra vấn đề để từ đó tìm ra cách khắc phục và đưa
đến kết luận cuối cùng. Các nhà bán lẻ thu thập và phân tích giúp họ xu hướng thị trường,
giới thiệu sản phẩm và đề ra các chiến dịch mới tăng trưởng lợi nhuận.
4. CÔNG CỤ HỖ TRỢ PHÂN TÍCH DỮ LIỆU
4.1. RapidMiner
Rapidminer là một nguồn mở, một môi trường cho Machine learning Data
mining được viết bằng ngôn ngữ lập trình Java. Chúng sử dụng hình Client/Server
với máy chủ là on-premise hoặc public cloud hoặc private cloud. Rapidminer cung cấp các
lược đồ Learning Schemas, các hình các thuật toán, thể được mở rộng bằng
ngôn ngữ R Python. Các nhà nghiên cứu thị trường, các công ty lớn thường áp dụng
RapidMiner vào công việc, vì nó tiện dụng, dễ dùng, không cần biết đến đầu ra Output mà
có thể cho ra khuôn mẫu theo thẻ Label hoặc Target.
Các thuật toán trong Data mining được chia thành 2 loại:
Thuật toán Learning được giám sát: các thuật toán yêu cầu đã có đầu ra Output
(hoặc gọi Label hay Target). Một số hình thuộc thuật toán y thể kể đến như:
Naïve Bayes, cây quyết định (Decision Tree), mạng thần kinh (Neural Networks), SVM
(Support Vector Machine), mô hình hồi quy (Logistic Regression),...
Thuật toán Learning không được giám sát: Là các thuật toán không bắt buộc phải biết
trước đầu ra Output nhưng thể tìm kiếm các khuôn mẫu hoặc các xu hướng không
Label hoặc Target, như hình K-Mean Clustering, Anomaly Detection, Association
Mining.
Với Rapidminer, thể giúp lập trình viên tải chuyển đổi dữ liệu (Extract,
Transform, Load (ETL)), xử lý dữ liệu và trực quan dữ liệu, xây dựng các mô hình dự báo
và phân tích thống kê, đánh giá và triển khai dữ liệu.
Ưu điểm của phần mềm Rapidminer
- Tải và tự động chuyển đổi dữ liệu (Extract, Transform, Load (ETL));
59
- Xử lý và trực quan hóa dữ liệu;
- Xây dựng các mô hình dự báo và phân tích thống kê chi tiết;
- Đánh giá và triển khai hóa dữ liệu.
4.2. Tableau
Tableau là phần mềm hỗ trợ phân tích (Data Analyst) và trực quan hóa dữ liệu (Data
Visualization) và là công cụ của giải pháp Business Intelligence. Tableau giúp người dùng
nghiệp vụ (business users) tổng hợp các dữ liệu, chuyển những liệu này từ các dãy số thành
những hình ảnh, biểu đồ trực quan, xây dựng các dashboard c phân tích (self-services).
Tableau trình bày trực quan dữ liệu, rất đơn giản và hiệu quả giúp cho bạn có cái nhìn tổng
quan về tình hình kinh doanh của doanh nghiệp, và ở mỗi một tiêu chí lại cung cấp cho bạn
các góc nhìn khác nhau. Điều này giúp ích rất nhiều cho các manager khi đưa ra một quyết
định giải quyết các vấn đề trong vận hành doanh nghiệp hàng ngày.
Một số tính năng của phần mềm Tableau có thể liệt kê như:
- Thu gom, tổng hợp dữ liệu, xây dựng metadata cung cấp cho người dùng nghiệp
vụ (business users) để chuẩn bị phân tích dữ liệu;
- Dễ dàng tạo ra các phân tích dữ liệu sử dụng với n 40 loại biểu đồ, bao gồm
các biểu đồ tả các thuyết kinh tế như nh 80/20, phân tích phân khúc
khách hàng RFM, bản đồ hành chính của Việt Nam,..;
- Hỗ trợ tạo các truy vấn bằng thao tác đơn giản;
- Vận hành trên nền tảng công nghệ in-memory nhằm đảm bảo tốc đphân tích với
lượng dữ liệu lớn của doanh nghiệp;
- Tạo ra các dashboard tương tác trên các biểu đồ, tham biến, tooltip, drill up, drill
down, liên kết dashboard, giải thích dữ liệu và hỏi dữ liệu giúp cho bạn luôn nắm
bắt được thông tin với các góc nhìn khác nhau;
- Sử dụng phần mềm Tableau trên các máy di động iOS & Android để phân tích và
truy xuất các phân tích & dashboard;
- Khả năng mở rộng dễ dàng đáp ứng yêu cầu mở rộng của doanh nghiệp, độ phức
tạp của các nghiệp vụ hiện tại.
60
Nhu cầu sử dụng phần mềm Tableau ngày nay khá phổ biến, bởi công việc phân tích
dữ liệu mang lại rất nhiều lợi ích cho doanh nghiệp. Tùy vào đặc thù của từng lĩnh vực mà
Tableau có thể hỗ trợ những tính năng phù hợp.
Ưu điểm của phần mềm Tableau
- Có phiên bản miễn phí;
- Có thể tương tác với bất kì loại dữ liệu nào từ Excel, Data Warehouse cho tới D
liệu Website;
- Khả năng cập nhật dữ liệu theo thời gian thực;
- Làm dliệu trở nên trực quan bằng nhiều cách như biểu đồ hay thậm chí là cả
một Dashboard, tt hơn bất kỳ phần mềm mềm nào khác trên thị trường;
- Hệ thống xử lý Big Data của Tableau rất mạnh mẽ.
4.3. Ngôn ngữ lập trình Python
Python một ngôn ngữ lập trình bậc cao cho các mục đích lập trình đa năng, do
Guido van Rossum tạo ra lần đầu ra mắt vào năm 1991. Python được thiết kế với ưu
điểm mạnh là dễ đọc, dễ học và dễ nhớ. Python là ngôn ngữ có hình thức rất sáng sủa, cấu
trúc ràng, thuận tiện cho người mới học lập trình. Cấu trúc của Python còn cho phép
người sử dụng viết mã lệnh với số lần phím tối thiểu. Vào tháng 7 năm 2018, Van
Rossum đã từ chức Leader trong cộng đồng ngôn ngữ Python sau 30 năm lãnh đạo.
Python hoàn toàn tạo kiểu động dùng chế cấp phát bộ nhớ tự động; do vậy
tương tự nPerl, Ruby, Scheme, Smalltalk, Tcl. Python được phát triển trong một dự
án mã mở, do tổ chức phi lợi nhuận Python Software Foundation quản lý. Ban đầu, Python
được phát triển để chạy trên nền Unix. Nhưng theo thời gian, Python dần mở rộng sang mọi
hệ điều hành từ MS-DOS đến Mac OS, OS/2, Windows, Linux các hệ điều hành khác
thuộc họ Unix. Mặc sự phát triển của Python sự đóng góp của rất nhiều nhân,
nhưng Guido van Rossum hiện nay vẫn là tác giả chủ yếu của Python. Ông giữ vai trò chủ
chốt trong việc quyết định hướng phát triển của Python.
Python là một ngôn ngữ lập trình scripting phbiến và hết sức thú vị. Nó không phải
ngôn ngữtốc độ thực thi nhanh như Assembly, C, C++… Nó được chọn làm ngôn ngữ
lập trình đầu tiên để dạy cho những người chưa biết lập trình hoặc thanh thiếu niên. Google,
Microsoft, nhiều tập đoàn, công ty tin học sử dụng để vận hành hệ thống dịch vụ của