
1

1
Mục lục
Pandas....................................................................................................................................2
Thư viện pandas là gì?........................................................................................................................3
Cài đặt Pandas....................................................................................................................................4
Giới thiệu qua về matplotlib..............................................................................................................4
Bắt đầu với Pyplot..............................................................................................................................5
Tạo một biểu đồ đơn giản.....................................................................................................................................5
Nhiều biểu đồ trong 1 figure.................................................................................................................................9
Tạo các loại biểu đồ khác nhau với Pyplot..........................................................................................................12
Đọc file csv sử dụng thư viện pandas...............................................................................................21
Thao tác với dataframe trong pandas..............................................................................................23
Xem thông tin của dataframe..............................................................................................................................23
Truy xuất dữ liệu trên dataframe........................................................................................................................24
Giới thiệu qua về Numpy Array...........................................................................................................................29
Arrays...............................................................................................................................................29
Array indexing..................................................................................................................................31
Datatypes.........................................................................................................................................38
Array math.......................................................................................................................................39
Broadcasting....................................................................................................................................43
Thêm, sửa, xóa trong dataframe.........................................................................................................................47
Hiểu dữ liệu trong dataframe...........................................................................................................49
Tạo mới dataframe..........................................................................................................................51
Tạo mới dataframe từ python dictionary............................................................................................................52
Tạo mới dataframe từ các python list.................................................................................................................52
Một số thao tác khác trên dataframe...............................................................................................53
Sắp xếp dataframe...............................................................................................................................................53
Nối 2 dataframe...................................................................................................................................................54
Xáo trộn các bản ghi trong dataframe................................................................................................................55
Lưu dataframe về file csv.................................................................................................................56
Tổng kết................................................................................................................................57
Tài nguyên lập trình..............................................................................................................59
Hỗ trợ tư vấn, định hướng.................................................................................................... 60

2
LỜI MỞ ĐẦU
Chào mừng đến với tài liệu về thư viện Pandas trong phân tích dữ liệu! Pandas là
một trong những thư viện quan trọng nhất trong lĩnh vực này, cho phép chúng ta
thao tác với dữ liệu một cách linh hoạt và hiệu quả hơn. Với Pandas, chúng ta có thể
đọc và ghi dữ liệu từ nhiều nguồn khác nhau, xử lý và phân tích dữ liệu một cách dễ
dàng, và thực hiện nhiều loại biểu đồ và trực quan hóa để hiểu rõ hơn về dữ liệu của
mình.
Trong tài liệu này, chúng ta sẽ tìm hiểu về các khái niệm cơ bản trong Pandas, bao
gồm Pyplot, Arrays, Datatypes… và các phương pháp thao tác và xử lý dữ liệu thông
qua các ví dụ cụ thể. Bên cạnh đó, chúng ta cũng sẽ đề cập đến các chủ đề liên quan
như tải dữ liệu từ các nguồn khác nhau, trực quan hóa dữ liệu và xử lý dữ liệu bị
thiếu.
Tài liệu này được thiết kế để giúp bạn có một sự hiểu biết tổng quan về thư viện
Pandas và cách sử dụng nó để phân tích dữ liệu một cách hiệu quả. Nếu bạn là một
nhà phân tích dữ liệu hoặc một nhà khoa học dữ liệu mới bắt đầu với Pandas, thì tài
liệu này sẽ là một tài nguyên hữu ích để bắt đầu. Hãy cùng bắt đầu khám phá thế
giới của Pandas!
Thân,
Ban biên tập CodeGym.
Pandas
Thư viện pandas python là gì? Nó có thể giúp bạn những gì và làm sao để sử dụng
thư viện pandas này trong lập trình python. Hãy cùng đi tìm câu trả lời cho các câu

3
hỏi trên trong bài viết ngày hôm nay. Nó chắc chắn sẽ đem lại cho các bạn nhiều
kiến thức bổ ích và làm chủ được cách sử dụng thư viện này.
Thư viện pandas là gì?
Thư viện pandas trong python là một thư viện mã nguồn mở, hỗ trợ đắc lực trong
thao tác dữ liệu. Đây cũng là bộ công cụ phân tích và xử lý dữ liệu mạnh mẽ của
ngôn ngữ lập trình python. Thư viện này được sử dụng rộng rãi trong cả nghiên cứu
lẫn phát triển các ứng dụng về khoa học dữ liệu. Thư viện này sử dụng một cấu trúc
dữ liệu riêng là Dataframe. Pandas cung cấp rất nhiều chức năng xử lý và làm việc
trên cấu trúc dữ liệu này. Chính sự linh hoạt và hiệu quả đã khiến cho pandas được
sử dụng rộng rãi.
Tại sao sử dụng thư viện pandas?
●DataFrame đem lại sự linh hoạt và hiệu quả trong thao tác dữ liệu và lập chỉ
mục;
●Là một công cụ cho phép đọc/ ghi dữ liệu giữa bộ nhớ và nhiều định dạng file:
csv, text, excel, sql database, hdf5;
●Liên kết dữ liệu thông minh, xử lý được trường hợp dữ liệu bị thiếu. Tự động
đưa dữ liệu lộn xộn về dạng có cấu trúc;
●Dễ dàng thay đổi bố cục của dữ liệu;
●Tích hợp cơ chế trượt, lập chỉ mục, lấy ra tập con từ tập dữ liệu lớn.
●Có thể thêm, xóa các cột dữ liệu;
●Tập hợp hoặc thay đổi dữ liệu với group by cho phép bạn thực hiện các toán
tử trên tập dữ liệu;
●Hiệu quả cao trong trộn và kết hợp các tập dữ liệu;
●Lập chỉ mục theo các chiều của dữ liệu giúp thao tác giữa dữ liệu cao chiều
và dữ liệu thấp chiều;
●Tối ưu về hiệu năng;
●Pandas được sử dụng rộng rãi trong cả học thuật và thương mại. Bao gồm
thống kê, thương mại, phân tích, quảng cáo,…

4
Cài đặt Pandas
Để cài đặt thư viện Pandas, bạn có thể làm theo một số cách khác nhau:
1. Sử dụng pip:gpip install pandas
2. Sử dụng conda:gconda install pandas
Bây giờ chúng ta sẽ bắt đầu học cách sử dụng thư viện pandas python. Nhưng trước
khi bắt đầu, hãy import thư viện pandas nhé. Chúng ta sẽ dùng cả thư viện matplotlib
nữa.
# Render our plots inline
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import random
Giới thiệu qua về matplotlib
Để thực hiện các suy luận thống kê cần thiết, cần phải trực quan hóa dữ liệu của bạn
và Matplotlib là một trong những giải pháp như vậy cho người dùng Python. Nó là
một thư viện vẽ đồ thị rất mạnh mẽ hữu ích cho những người làm việc với Python
và NumPy. Module được sử dụng nhiều nhất của Matplotib là Pyplot cung cấp giao
diện như MATLAB nhưng thay vào đó, nó sử dụng Python và nó là nguồn mở.
Để cài đặt Matplotlib nếu bạn có Anaconda chỉ cần gõgconda install matplotlibghoặc sử
dụng tools pipgpip install matplotlib
Một Matplotlib figure có thể được phân loại thành nhiều phần như dưới đây:
●Figure:gNhư một cái cửa sổ chứa tất cả những gì bạn sẽ vẽ trên đó.
●Axes:gThành phần chính của một figure là các axes (những khung nhỏ hơn để
vẽ hình lên đó). Một figure có thể chứa một hoặc nhiều axes. Nói cách khác,
figure chỉ là khung chứa, chính các axes mới thật sự là nơi các hình vẽ được
vẽ lên.

