ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CH KHOA
KHOA KHOA HỌC & KỸ THUẬT Y TÍNH
CẤU TRÚC RỜI RẠC CHO KHMT (CO1007)
Thống kê khảo sát kết quả Covid-19
môn Cấu trúc rời rạc
GVHD: Huỳnh Tường Nguyên
Nguyễn Ngọc Lễ
Sinh viên thực hiện: Nguyễn Tất Tấn Dũng 2113066
Đổng Hoàng Sơn 2110507
Trần Trọng Bách 2112847
Phan Phạm Thi 2114857
Đậu Đức Quân 2114531
Tp. Hồ Chí Minh, Tháng 04/2021
Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học & Kỹ Thuật Máy Tính
Mục lục
1 Động nghiên cứu 2
2 Kiến thức và chuẩn bị 3
2.1 Giới thiệu chung v ngôn ngữ R và Latex ............... 3
2.2 Các kỹ năng cần thiết ............................ 3
3 Mục tiêu 3
4 tả dữ liệu 3
5 Xử nhiệm vụ 4
5.1 Dẫn nhập dữ liệu chung .......................... 4
5.2 Trả lời câu hỏi ................................ 4
5.2.1 Nhóm câu hỏi liên quan đến tổng quát dữ liệu ............ 4
5.2.2 Nhóm câu hỏi liên quan đến tả thống kê bản dữ liệu ..... 13
5.2.3 Nhóm câu hỏi liên quan đến dữ liệu thể hiện thu thập dữ liệu ... 15
5.2.4 Nhóm câu hỏi liên quan đến trực quan dữ liệu ............ 19
5.2.5 Nhóm câu hỏi liên quan đến trực quan dữ liệu theo thời gian tháng 27
5.2.6 Nhóm câu hỏi liên quan đến trực quan dữ liệu theo trung bình 7
ny gần nhất .............................. 51
5.2.7 Nhóm câu hỏi liên quan đến tất cả quốc gia theo thời gian tháng 75
5.2.8 Nhóm câu hỏi liên quan đến tất cả quốc gia theo trung bình 7 ngày
gần nhất ................................. 82
5.2.9 Nhóm câu hi liên quan đến sự tương quan giữa nhiễm bệnh và tử
vong ................................... 89
5.2.10 Nhóm câu hỏi riêng ...........................102
6 Nhận xét 105
7 Kết luận 105
Tài liệu tham khảo 105
Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2021-2022 Trang 1/106
Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học & Kỹ Thuật Máy Tính
1 Động nghiên cứu
Bệnh Corona do virus y ra còn gọi COVID-19 đã tạo ra những tác động tiêu cực đến
nền đời sống của dân trên thề giới. Các đợt bùng phát của COVID-19 hay những biến
thể virus đã mang đến những thách thức chưa từng và được dự báo sẽ tác động
đáng k đến sự phát triển kinh tế. Nhiều thông tin, tin tức v tình hình dịch bệnh cũng
Hình 1: Virus covid-19
như dữ liệu v COVID-19 được phổ biến rộng i trong đời sống hay trên internet để giúp
cho mọi người quan sát, phân tích, nghiên cứu đươc cập nhật hàng ngày.
Hình 2: Kit xét nghiệm covid-19
Phân tích và thống kê dữ liệu về COVID-19 giúp cho ta thấy được số ca nhiễm bệnh,
tử vong của một quốc gia, so sánh tình trạng của các quốc gia trong khu vực hay diễn
biến dịch trên thế giới. Từ số liệu được báo cáo mơi, chúng ta muốn biết các ca nhiễm
bệnh xu hướng tăng lên hay giảm xuống quy các đợt bùng phát mỗi quốc gia.
Dữ liệu dùng cho bài tập lớn thể tham khào từ nguồn thể xử trước với một vài
thống kê bản trước khi được truyền đi để khai thác dữ liệu thông minh sâu hơn.
Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2021-2022 Trang 2/106
Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học & Kỹ Thuật Máy Tính
2 Kiến thức và chuẩn bị
2.1 Giới thiệu chung v ngôn ngữ R và Latex
Ngôn ngữ R phần mềm miễn phí nguồn mở chạy trên nhiều nền phần cứng như Intel,
PowerPC, Alpha, Sparc và nhiều hệ điều hành khác nhau như Unix, Linux, Windows,
Mac. R rất dễ học và thể phát triển nhanh các ứng dụng khai mỏ dữ liệu trong thời
gian ngắn nhờ nhiều công cụ tích hợp sẵn dùng như khả năng lập trình, kiểu dữ liệu
phong phú, các hàm thống kê, giải thuật học tự động và các giao diện truy vấn dữ liệu,
hiển thị dữ liệu.
LATEX một hệ thống soạn thảo rất phù hợp cho việc tạo ra các bài báo, báo cáo,
luận văn, sách, hoặc các bài trình diễn.LATEX còn cho phép chèn các hình ảnh, bảng
biểu, công thức toán học vào văn bản chữ mà vẫn giữ được định dạng trang. Các tài liệu
soạn thảo bằng LATEX cht lượng định dạng cao, trông đẹp mắt và chất lượng bản
in rất tốt.
Hai ngôn ngữ lập trình R và Latex góp phn tạo nên bài báo cáo hoàn chỉnh.
2.2 Các kỹ năng cần thiết
Kỹ năng phân tích và xử dữ liệu(DataAnalysis)
Kỹ năng lập trình (P rogramming)
3 Mục tiêu
Trong bài tập lớn y, các sinh viên sẽ bắt đầu với các bài toán thống kê đơn giản từ
những dữ liệu đưc cung cấp. Qua đó,chúng em sẽ tìm ra những con số thú vị, ý nghĩa
đối với các dữ liệu thực tế từ tình hình dịch corona. Những kết qu chúng em tìm ra
sẽ bước khởi đầu cho việc khai phá nguồn dữ liệu của hệ thống sau y, nhằm đạt tới
mục tiêu nâng cao kỹ năng lập trình, kỹ năng giải quyết vấn đề cho người học, kỹ năng
làm việc nhóm cũng như hướng tới mục tiêu cao hơn đam trong làm việc, học tập
và nghiên cứu.
4 tả dữ liệu
Dữ liệu gồm các thuộc tính chính “iso_code, continent, location, date, new_cases,
new_deaths” được lưu trong file csv.
1. iso_code: Định danh đất nước
2. continent Tên châu lục
3. location: Tên quốc gia
4. date: Ngày quan sát với định dạng Month-Day-Year
5. new_cases: Số trường hợp COVID-19 mới được xác nhận
6. new_deaths: Số ca tử vong mới do COVID-19
Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2021-2022 Trang 3/106
Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học & Kỹ Thuật Máy Tính
5 Xử nhiệm vụ
5.1 Dẫn nhập dữ liệu chung
MADE = 9502
Từ dữ liệu tổng hợp ta rút thành 4 file csv chứa dữ liệu khác nhau bao gồm
Australia.csv : chứa dữ liệu của nước Úc
New Zealand.csv : chứa dữ liệu của New Zealand
New Caledonia.csv : chứa dữ liệu của New Caledonia
All.csv : chứa tổng hợp 3 file
Các phần sau ta sẽ sử dụng 4 file trên để thực hiện thng kê dữ liệu
5.2 Trả lời câu hỏi
5.2.1 Nhóm câu hỏi liên quan đến tổng quát dữ liệu
Dùng read.csv() để đọc dữ liệu từ file “owid-covid-data.csv”. Ép kiểu ngày tháng theo
định dạng tháng ngày năm bằng as.date().Khai báo thư viện cần thiết.
1) Tập mẫu thể hiện thu thập dữ liệu vào các năm 2020, 2021, 2022
TDùng levels() và year() từ thư viện lubridate để lọc lấy những năm trong cột
date. * "as.Date" một khung dữ liệu biểu diễn các ngày trong lịch
Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2021-2022 Trang 4/106