
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
KHOA KHOA HỌC & KỸ THUẬT MÁY TÍNH
CẤU TRÚC RỜI RẠC CHO KHMT (CO1007)
Thống kê khảo sát kết quả Covid-19
môn Cấu trúc rời rạc
GVHD: Huỳnh Tường Nguyên
Nguyễn Ngọc Lễ
Sinh viên thực hiện: Nguyễn Tất Tấn Dũng – 2113066
Đổng Hoàng Sơn — 2110507
Trần Trọng Bách — 2112847
Phan Phạm Thi — 2114857
Đậu Đức Quân — 2114531
Tp. Hồ Chí Minh, Tháng 04/2021

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học & Kỹ Thuật Máy Tính
Mục lục
1 Động cơ nghiên cứu 2
2 Kiến thức và chuẩn bị 3
2.1 Giới thiệu chung về ngôn ngữ R và Latex ............... 3
2.2 Các kỹ năng cần thiết ............................ 3
3 Mục tiêu 3
4 Mô tả dữ liệu 3
5 Xử lí nhiệm vụ 4
5.1 Dẫn nhập dữ liệu chung .......................... 4
5.2 Trả lời câu hỏi ................................ 4
5.2.1 Nhóm câu hỏi liên quan đến tổng quát dữ liệu ............ 4
5.2.2 Nhóm câu hỏi liên quan đến mô tả thống kê cơ bản dữ liệu ..... 13
5.2.3 Nhóm câu hỏi liên quan đến dữ liệu thể hiện thu thập dữ liệu ... 15
5.2.4 Nhóm câu hỏi liên quan đến trực quan dữ liệu ............ 19
5.2.5 Nhóm câu hỏi liên quan đến trực quan dữ liệu theo thời gian là tháng 27
5.2.6 Nhóm câu hỏi liên quan đến trực quan dữ liệu theo trung bình 7
ngày gần nhất .............................. 51
5.2.7 Nhóm câu hỏi liên quan đến tất cả quốc gia theo thời gian là tháng 75
5.2.8 Nhóm câu hỏi liên quan đến tất cả quốc gia theo trung bình 7 ngày
gần nhất ................................. 82
5.2.9 Nhóm câu hỏi liên quan đến sự tương quan giữa nhiễm bệnh và tử
vong ................................... 89
5.2.10 Nhóm câu hỏi riêng ...........................102
6 Nhận xét 105
7 Kết luận 105
Tài liệu tham khảo 105
Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2021-2022 Trang 1/106

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học & Kỹ Thuật Máy Tính
1 Động cơ nghiên cứu
Bệnh Corona do virus gây ra còn gọi là COVID-19 đã tạo ra những tác động tiêu cực đến
nền đời sống của cư dân trên thề giới. Các đợt bùng phát của COVID-19 hay những biến
thể virus đã mang đến những thách thức chưa từng có và được dự báo sẽ có tác động
đáng kể đến sự phát triển kinh tế. Nhiều thông tin, tin tức về tình hình dịch bệnh cũng
Hình 1: Virus covid-19
như dữ liệu về COVID-19 được phổ biến rộng rãi trong đời sống hay trên internet để giúp
cho mọi người quan sát, phân tích, nghiên cứu đươc cập nhật hàng ngày.
Hình 2: Kit xét nghiệm covid-19
Phân tích và thống kê dữ liệu về COVID-19 giúp cho ta thấy được số ca nhiễm bệnh,
tử vong của một quốc gia, so sánh tình trạng của các quốc gia trong khu vực hay diễn
biến dịch trên thế giới. Từ số liệu được báo cáo mơi, chúng ta muốn biết các ca nhiễm
bệnh có xu hướng tăng lên hay giảm xuống quy mô các đợt bùng phát ở mỗi quốc gia.
Dữ liệu dùng cho bài tập lớn có thể tham khào từ nguồn có thể xử lý trước với một vài
thống kê cơ bản trước khi nó được truyền đi để khai thác dữ liệu thông minh sâu hơn.
Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2021-2022 Trang 2/106

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học & Kỹ Thuật Máy Tính
2 Kiến thức và chuẩn bị
2.1 Giới thiệu chung về ngôn ngữ R và Latex
Ngôn ngữ R là phần mềm miễn phí mã nguồn mở chạy trên nhiều nền phần cứng như Intel,
PowerPC, Alpha, Sparc và nhiều hệ điều hành khác nhau như Unix, Linux, Windows,
Mac. R rất dễ học và có thể phát triển nhanh các ứng dụng khai mỏ dữ liệu trong thời
gian ngắn nhờ nhiều công cụ tích hợp sẵn dùng như khả năng lập trình, kiểu dữ liệu
phong phú, các hàm thống kê, giải thuật học tự động và các giao diện truy vấn dữ liệu,
hiển thị dữ liệu.
LATEX là một hệ thống soạn thảo rất phù hợp cho việc tạo ra các bài báo, báo cáo,
luận văn, sách, hoặc các bài trình diễn.LATEX còn cho phép chèn các hình ảnh, bảng
biểu, công thức toán học vào văn bản chữ mà vẫn giữ được định dạng trang. Các tài liệu
soạn thảo bằng LATEX có chất lượng định dạng cao, trông đẹp mắt và chất lượng bản
in rất tốt.
Hai ngôn ngữ lập trình R và Latex góp phần tạo nên bài báo cáo hoàn chỉnh.
2.2 Các kỹ năng cần thiết
•Kỹ năng phân tích và xử lý dữ liệu(DataAnalysis)
•Kỹ năng lập trình (P rogramming)
3 Mục tiêu
Trong bài tập lớn này, các sinh viên sẽ bắt đầu với các bài toán thống kê đơn giản từ
những dữ liệu được cung cấp. Qua đó,chúng em sẽ tìm ra những con số thú vị, có ý nghĩa
đối với các dữ liệu thực tế từ tình hình dịch corona. Những kết quả mà chúng em tìm ra
sẽ là bước khởi đầu cho việc khai phá nguồn dữ liệu của hệ thống sau này, nhằm đạt tới
mục tiêu nâng cao kỹ năng lập trình, kỹ năng giải quyết vấn đề cho người học, kỹ năng
làm việc nhóm cũng như hướng tới mục tiêu cao hơn là đam mê trong làm việc, học tập
và nghiên cứu.
4 Mô tả dữ liệu
Dữ liệu gồm các thuộc tính chính “iso_code, continent, location, date, new_cases,
new_deaths” được lưu trong file csv.
1. iso_code: Định danh đất nước
2. continent Tên châu lục
3. location: Tên quốc gia
4. date: Ngày quan sát với định dạng Month-Day-Year
5. new_cases: Số trường hợp COVID-19 mới được xác nhận
6. new_deaths: Số ca tử vong mới do COVID-19
Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2021-2022 Trang 3/106

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học & Kỹ Thuật Máy Tính
5 Xử lí nhiệm vụ
5.1 Dẫn nhập dữ liệu chung
MADE = 9502
•Từ dữ liệu tổng hợp ta rút thành 4 file csv chứa dữ liệu khác nhau bao gồm
•Australia.csv : chứa dữ liệu của nước Úc
•New Zealand.csv : chứa dữ liệu của New Zealand
•New Caledonia.csv : chứa dữ liệu của New Caledonia
•All.csv : chứa tổng hợp 3 file
•Các phần sau ta sẽ sử dụng 4 file trên để thực hiện thống kê dữ liệu
5.2 Trả lời câu hỏi
5.2.1 Nhóm câu hỏi liên quan đến tổng quát dữ liệu
Dùng read.csv() để đọc dữ liệu từ file “owid-covid-data.csv”. Ép kiểu ngày tháng theo
định dạng tháng ngày năm bằng as.date().Khai báo thư viện cần thiết.
1) Tập mẫu thể hiện thu thập dữ liệu vào các năm 2020, 2021, 2022
TDùng levels() và year() từ thư viện lubridate để lọc lấy những năm có trong cột
date. * "as.Date" là một khung dữ liệu biểu diễn các ngày trong lịch
Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2021-2022 Trang 4/106

