1
HỌC VIỆN CNH CH VÀ PT TRIỂN
GIÁO TRÌNH
D LIU LN TRONG
KINH T VÀ KINH DOANH
Chủ biên
PGS,TS. TRẦN TRỌNG NGUYÊN TS. ĐÀM THANH TÚ
NỘI - 2022
HỌC VIỆN CHÍNH SÁCH VÀ PHÁT TRIỂN
GIÁO TRÌNH
DỮ LIỆU LỚN TRONG KINH TẾ VÀ KINH DOANH
Chủ biên: PGS, TS. Trần Trọng Nguyên
TS. Đàm Thanh Tú
Các thành viên tham gia:
TS. Nguyễn Hữu Xuân Trường
ThS. Nguyễn Khắc Giáo
ThS. Đỗ Thế Dương
HÀ NỘI - 2022
2
LỜI NÓI ĐẦU
Dữ liệu đã trở nên một phần tất yếu đối với tất cả mọi khía cạnh của cuộc sống
con người trong vòng 30 năm qua, nó đã thay đổi cách chúng ta được giáo dục và giải
trí, giúp chúng ta trải nghiệm với con người, công việc và thế giới rộng mở hơn chung
quanh mình. Hiện tại, rất nhiều dữ liệu đã được tạo ra liên tục từng giờ, từng phút với
tốc độ ngày càng tăng. Trong báo o ngày 8/5/2020 của IDC (International Data
Corporation, một công ty trụ sở tại Mỹ hoạt động tại hơn 110 quốc gia trong
lĩnh vực cung cấp thông tin thị trường, dịch vụ tư vấn sự kiện cho thị trường công
nghệ thông tin, viễn thông) cho rằng tổng dung lượng dữ liệu toàn cầu (global
datasphere) năm 2020 sẽ khoảng 59 zettabytes, dự báo đến năm 2025 163
zettabytes dữ liệu được tạo ra. Bạn sẽ hình dung được dung lượng dữ liệu này lớn tới
chừng nào khi biết rằng 1 đơn vị dung lượng zettabytes bằng 1.000 tỷ (trillion)
gigabytes. IDC cũng cho rằng, thế giới sẽ tạo lượng dữ liệu trong 5 năm tiếp theo gấp
3 lần so với 5 năm trước trước đó.
Thực tế hiện nay, dữ liệu không chỉ dùng để lưu trữ đơn thuần mà đó còn là một
tài sản lớn đối với mọi tổ chức khi biết cách khai thác, sử dụng. Ẩn chứa trong những
kho dữ liệu khổng lồ kiến thức thể thay đổi cả thế giới chúng ta. Những kho dữ
liệu khổng lồ, phức tạp cùng với khả năng sử dụng dữ liệu đang tăng lên không ngừng
của chúng ta đã hình thành nên một công nghệ mới, đó là công nghệ dữ liệu lớn (Big
Data). Dữ liệu lớn trên thực tế đang được ứng dụng sâu rộng o rất nhiều lĩnh vực
của hội, của nền kinh tế, tạo nên những chuyển biến ấn tượng, giúp tăng hiệu quả
năng suất của doanh nghiệp. thể nói rằng, dữ liệu lớn đang thực sự nhân tố
thay đổi cuộc chơi trong nhiều lĩnh vực, cuộc cách mạng m thay đổi cách chúng
ta sống, làm việc và tư duy.
Hiện nay, tại Việt Nam chưa có một giáo trình hoàn chỉnh về Dữ liệu lớn cho
sinh viên, đặc biệt ng dụng trong lĩnh vực Kinh tế Kinh doanh. Do đó, để đáp
ứng cho nhu cầu học tập của sinh viên nói chung, sinh viên tại Học viện Chính sách
Phát triển nói riêng thể tiếp cận được với những kiến thức về Dữ liệu lớn mới
theo xu thế thời đại, chúng tôi đã biên soạn giáo trình Dữ liệu lớn trong kinh tế
kinh doanhdựa trên những kiến thức tổng hợp về dữ liệu lớn, công nghệ cho quản trị
và phân tích dữ liệu lớn, ứng dụng dữ liệu lớn trong lĩnh vực Kinh tế và Kinh doanh.
Giáo trình này được biên soạn một cách hệ thống trên cơ sở tham khảo có chọn
lọc nhiều nguồn tài liệu cập nhật của các học giả nổi tiếng trên thế giới. Giáo trình
được chia thành 5 chương với các nội dung được liên quan chặt chẽ đến nhau:
3
Chương 1. Tổng quan về dữ liệu lớn: trình y một số vấn đề trong thực tiễn
cuộc sống đòi hỏi cần xử lý và phân tích dữ liệu lớn. Qua đó, giúp cho người học cảm
nhận được vai trò quan trọng của dữ liệu lớn hiện nay. Thông qua tìm hiểu lược sử về
dữ liệu, cấu trúc của dữ liệu chương 1 sẽ cho người học tiếp cận đến khái niệm về dữ
liệu lớn và các nguồn hình thành nên dữ liệu lớn, những đặc trưng bản của dữ liệu
lớn để thể phân biệt được với dữ liệu truyền thống. Ngoài ra, chương 1 cũng giới
thiệu cho người học những thông tin khái quát về ngành khoa học dữ liệu cũng như
một số định hướng nghề nghiệp liên quan đến lĩnh vực này.
Chương 2. Công nghệ cho xlý dữ liệu lớn: giới thiệu về những nền tảng công
nghệ cho việc xử lý dữ liệu lớn, trong đó tập trung vào hai vấn đề chính là công nghệ
lưu trữ dữ liệu lớn các hệ thống tính toán dữ liệu lớn. Đây một chương nội
dung liên quan nhiều đến kthuật nên sẽ khá nhiều những khái niệm công nghệ
mới được giới thiệu đến như Hồ dữ liệu (Data Lake), Kho dữ liệu (Data Warehouse),
cơ sở dữ liệu không cấu trúc (NoSQL),… Do đó, để thuận tiện cho người đọc thì cần
yêu cầu có một số kiến thức bản về cơ sở dữ liệu, hoặc tìm kiếm thêm thông tin liên
quan tham khảo.
Chương 3. Phân tích dữ liệu lớn: trình bày những nội dung liên quan đến phân
tích dữ liệu lớn, người đọc sẽ hiểu về phân tích dữ liệu lớn gì, tại sao cần phải
phân tích dữ liệu lớn và các dạng phân tích dữ liệu trong thực tế. Sau đó, người đọc sẽ
được giới thiệu về quy trình các bước trong phân tích dữ liệu, đặc biệt là các công việc
trong bước xử lý dữ liệu cùng với các kỹ thuật phổ biến trong phân tích dữ liệu lớn và
những ứng dụng cụ thể của các kỹ thuật này đối với các bài toán thực tiễn. Cuối cùng,
người đọc sẽ được giới thiệu một số công cụ, phần mềm được sử dụng phổ biến trong
phân tích dữ liệu lớn.
Chương 4. Trực quan hoá dữ liệu phân tích: một chương quan trọng
nhất của giáo trình này vì nó cung cấp một nền tảng cơ bản cho những người muốn kể
câu chuyện bằng dữ liệu thông qua các phần mềm như Microsoft Excel Tableau.
Nhiều người thể nhập dữ liệu vào Excel tạo một vài biểu đồ để coi như hoàn
thành công đoạn trực quan hóa dữ liệu. Điều này khả năng tầm thường hóa hoàn
toàn những câu chuyện thú vị nhất của dữ liệu, hay thậm chí là gây khó hiểu cho người
nghe. Mọi dữ liệu đều ẩn chứa một câu chuyện, các bài học trong chương 4 này sẽ
giúp người học thay đổi duy từ “trình y dữ liệu” sang kể chuyện thông qua dữ
liệu” một cách trực quan và hợp ngữ cảnh.
Chương 5. ng dụng dữ liệu lớn trong kinh tế kinh doanh: giới thiệu
những ứng dụng điển hình của dữ liệu lớn trong một số bài toán về Kinh tế Kinh
doanh. Chương này sẽ giúp người học hiểu rằng dữ liệu lớn và các phương pháp phân
4
tích đang biến đổi thế giới ngày càng thông minh hơn, tối ưu hóa các quy trình trong
Kinh tế Kinh doanh, tiếp cận khách hàng mục tiêu tốt hơn, cải thiện chăm sóc
sức khỏe của con người.
Chúng tôi biết rằng còn có rất nhiều điều về dữ liệu lớn cũng như quá trình quản
trị phân tích dữ liệu lớn mà cuốn sách y chưa đề cập đến. Chúng tôi chỉ dừng
mức độ n bản để người học những nền tảng nhất định về dữ liệu lớn cũng như
ứng dụng của chúng trong lĩnh vực Kinh tế và Kinh doanh. Ở cuối mỗi chương, cuốn
giáo trình y sẽ đưa ra các câu hỏi thảo luận bài tập. Qua các u hỏi bài tập
này, học viên không chỉ hội thực hành trên máy tính còn tiếp cận được rất
nhiều nguồn dữ liệu có thể rất cần thiết trong quá trình nghiên cứu ứng dụng thực
tế sau này (Dữ liệu để thực hành thể download tại trang web của khoa Kinh tế số:
www.apd.edu.vn/bai-giang5).
Trong quá trình viết cuốn giáo trình này, chúng tôi may mắn nhận được nhiều ý
kiến đóng góp của PGS, TS. Nguyễn Việt Anh (Viện CNTT Viện Hàn m Khoa
học Công nghệ Việt Nam); TS. Nguyễn Thế Hùng (Học viện Chính sách Phát
triển); TS. Nguyễn Thị Đông (Học viện Chính sách Phát triển); TS. Đặng Xuân Thọ
(Trường Đại học phạm Nội); TS. Đặng Phương Mai (Học viện Tài chính),…
Chúng tôi cũng xin cảm ơn phòng Quản lý Đào tạo, phòng Quản khoa học Hợp
tác của Học viện Chính sách và Phát triển đã tạo điều kiện thuận lợi cho nhóm tác giả
trong suốt quá trình nghiên cứu và viết cuốn giáo trình này.
Mặc chúng tôi đã nỗ lực mức đcao nhất nhưng những sai sót vẫn khả
năng xảy ra, và đó là điều không tránh khỏi. Chính vì vậy, mọi sự đóng góp xây dựng
của bạn đọc để hoàn thiện cuốn giáo trình y món quà cùng ý nghĩa đối với
chúng tôi. Mọi ý kiến đóng p, rất mong quý vị gửi mail về các địa chỉ sau đây: Trần
Trọng Nguyên (nguyentt@apd.edu.vn) hoặc Đàm Thanh Tú (tudt@apd.edu.vn).
Trân trọng!
Hà Nội, ngày 10 tháng 12 năm 2022
Tập thể biên soạn
5
LỜI GIỚI THIỆU MÔN HỌC
1. Đối tượng nghiên cứu của môn học
Dữ liệu lớn trong kinh tế và kinh doanh là một môn học thuộc phần kiến thức cơ
sở ngành trong chương trình đào tạo sinh viên chính quy ngành Kinh tế số tại Học viện
Chính sách Phát triển. Đồng thời, đây cũng một môn học sở của sinh viên
nhiều ngành học khác thuộc các loại hình đào tạo của Học viện.
Đối tượng nghiên cứu của môn học kiến thức bản về dữ liệu lớn và các cách
thức quản trị, phân tích dữ liệu để ứng dụng trong các lĩnh vực kinh tế và kinh doanh.
Cụ thể, môn học này làm bản chất, đặc trưng, công cụ quản dữ liệu lớn; c
nguyên tắc để phân tích dữ liệu lớn cũng như triển khai thực hành phân tích dữ liệu
lớn bằng một số công cụ thông dụng như Excel và Tableau. Ngoài ra, môn học này sẽ
trình bày một số những bài học tình huống (case study) trong thực tế của các tổ chức
và doanh nghiệp trên phạm vi toàn cầu để học viên hiểu rõ được những ứng dụng của
dữ liệu lớn trong lĩnh vực kinh tế và kinh doanh.
Cần phải nhấn mạnh rằng việc học và nghiên cứu một chủ đề rất mới “Big Data
là vô cùng phức tạp. Do đó, người học nên chú trọng hiểu những nội dung và các chủ
đề đã được giảng dạy, thảo luận có liên quan đến nội dung của môn học. Không có tài
liệu nào có thể bao quát hết các chủ đề về dữ liệu lớn và giáo trình này cũng không cố
gắng để m được điều đó. Để có thể những góc nhìn sâu sắc toàn diện hơn về
dữ liệu lớn cũng như ứng dụng của trong các lĩnh vực khác như y học, sinh học,
nông nghiệp,... học viên thể tìm hiểu các cuốn sách khác về dữ liệu lớn đã xuất bản
bởi các tác giả trong nước quốc tế. Thông qua cuốn giáo trình này, tập thể tác giả
mong muốn người học thể nhớ càng nhiều kiến thức từ tài liệu càng tốt, nhưng việc
nhớ không phải bằng cách học thuộc ng phải thông qua sự hiểu biết vấn đề thì
mới nhớ lâu được. Hơn nữa, giáo trình y cũng không định trả lời mọi câu hỏi, vì thế
sau khi học xong người học có nhiều vấn đề còn phải tiếp tục suy nghĩ, tìm tòi để đáp
ứng nhu cầu kiến thức của mình.
Nội dung nghiên cứu quan trọng nhất của cuốn sách giáo trình y đó chính
hiểu thực hành được việc phân tích dữ liệu nói chung, trong đó bao gồm cả phân
tích dữ liệu lớn bằng các công cụ nTableau hay Excel. Đôi khi việc trực quan hóa
phân tích dữ liệu (Data visualization) được coi là một nghệ thuật đôi khi lại được
coi một công việc tính chất khoa học vượt trội. Trong thực tế, đây một công
việc sự kết hợp của cả hai một trong số các trường hợp khác thì việc trực quan
hóa dliệu lại là một nghệ thuật kể câu chuyện dựa trên dữ liệu (data story). Tính chất
khoa học của trực quan hóa và phân tích dữ liệu được thể hiện thông qua các mô hình,
thuật toán bóc tách, trích xuất dữ liệu cũng như cách trình y lên các bảng điều khiển