ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CH KHOA
KHOA KỸ THUẬT Y DỰNG
O O BÀI TẬP LỚN
MÔN HỌC C SUẤT THỐNG
PHÂN TÍCH LƯU LƯỢNG XE QUA CẦU
TRONG TƯƠNG LAI
Giảng viên hướng dẫn: ThS. Nguyễn Kiều Dung
Danh sách thành viên nhóm
STT Họ và tên MSSV Ghi chú
1 Nguyễn Minh Đức 1913154 L03
2 Võ Việt Khoa 2311651 L03
3 Nguyễn Ngọc Hồng Lĩnh 2311881 L03
4 Nguyễn Khoa Nam 2312147 L04
5 Nguyễn Hoàng Tiến 2313435 L05
6 Nguyễn Ngọc Băng Anh 2310109 L06
7 Nguyễn Thành Minh 2312096 L17
8 Huỳnh Trọng Nhân 2212355 L17
Tp. Hồ Chí Minh, 01/12/2024
Phân tích nhân tố ảnh hưởng đến lưu lượng xe qua cầu trung bình trong tương lai Lớp: L13
Mục lục
1 TỔNG QUAN DỮ LIỆU 3
2 KIẾN THỨC NỀN 5
2.1 Kimđnh........................................... 5
2.1.1 Đnhnghĩa ...................................... 5
2.1.2 Các giả thuyết trong bài toán kiểm định . . . . . . . . . . . . . . . . . . . . . . 5
2.1.3 Tiêu chuẩn kiểm định - Miền bác b . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.4 Các sai lầm trong bài toán kiểm định . . . . . . . . . . . . . . . . . . . . . . . 6
2.1.5 Các bước thực hiện kiểm định . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.1.6 Kiểm định trung bình 1 mẫu, mẫu lớn n30 ................... 6
2.1.7 Kiểm định trung bình 2 mẫu, mẫu lớn n130 và n230 ............ 7
2.2 Phântíchphươngsai..................................... 7
2.2.1 Các giả định trong hình phân phương sai một yếu tố . . . . . . . . . . . . 7
2.2.2 Giả thiết cho bài toán phân tích phương sai một nhân tố . . . . . . . . . . . . 8
2.2.3 Các bước tiến hành phân tích phương sai một nhân tố . . . . . . . . . . . . . . 8
2.3 Môhiquytuyếntínhbi.................................. 9
2.3.1 Githuyếtcơbn .................................. 10
2.3.2 Ưclưngcáchs ................................. 10
2.3.3 Đánhgiámôhình .................................. 10
3 TIỀN XỬ LÝ SỐ LIỆU 11
3.1 Đcdliu .......................................... 11
3.2 Làmschdliu....................................... 11
3.2.1 Đitêncácbiến ................................... 11
3.2.2 Chnlcbiếnphântích............................... 11
3.2.3 Chuyển đổi định dạng biến . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4 THỐNG T 16
4.1 Tínhtoánthngkêmu................................... 16
4.2 Môtdliubngđth.................................. 17
4.2.1 Đthhistogram................................... 17
4.2.2 Đthboxplot .................................... 17
4.2.3 ĐthScatterPlot.................................. 19
5 THỐNG SUY DIỄN 21
5.1 KIMĐNHMTMU .................................. 21
5.2 KIMĐNHHAIMU................................... 23
5.3 ANOVAMTNHÂNT.................................. 26
5.4 HIQUYTUYNTÍNHBI ............................... 30
6 THẢO LUẬN VÀ MỞ RỘNG 34
7 NGUỒN DỮ LIỆU VÀ NGUỒN CODE 35
Giảng viên hướng dẫn: Th.S Nguyễn Kiều Dung Trang 1
Phân tích nhân tố ảnh hưởng đến lưu lượng xe qua cầu trung bình trong tương lai Lớp: L13
Danh sách hình v
3.1 Kết quả 6 dòng đầu tiên của dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.2 Kết quả dụ của một số biến sau khi đổi tên . . . . . . . . . . . . . . . . . . . . . . . 12
3.3 Kết quả thể hiện số lượng và phần trăm khuyết một số biến dụ . . . . . . . . . . 12
3.4 Kết quả số quan sát và số biến còn lại sau khi xử dữ liệu khuyết . . . . . . . . . . . 13
3.5 Kết quả số quan sát và số biến còn lại sau khi loại b các biến dạng chuỗi . . . . . . . 13
3.6 Kết quả số quan sát và số biến còn lại sau khi loại b các biến mang giá trị giống nhau 13
3.7 Kết quả tính hệ số tương quan giữa Future_Average_Daily_Traffic và các biến độc lập 14
3.8 Kết quả tên các biến |R| > 0.4 với Future_Average_Daily_Traffic . . . . . . . . . 14
3.9 Kết quả số quan sát và số biến trong new_data . . . . . . . . . . . . . . . . . . . . . . 14
3.10 Kết quả kiểm tra cấu trúc new_data . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.11 Kết quả tính toán các thống tả cho các biến liên tục . . . . . . . . . . . . . . . 16
4.12 Kết quả lập bảng thống tần số cho các biến phân loại . . . . . . . . . . . . . . . . . 16
4.13 Kết quả đồ thị histogram cho Future_Average_Daily_Traffic . . . . . . . . . . . . . . 17
4.14 Kết quả v đồ thị boxplot của Future_Average_Daily_Traffic theo các biến phân loại 19
4.15 Kết quả vẽ các đồ thị Scatter Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5.16Kếtqucácđctrưngmu ................................. 21
5.17 Kết quả đồ thị kiểm tra phân phối chuẩn . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.18 Kết quả kiểm định kiểm tra phân phối chuẩn . . . . . . . . . . . . . . . . . . . . . . . 22
5.19 Kết quả thống kê kiểm định và zα............................. 22
5.20 Kết quả tính toán các thống mẫu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.21KếtquvđthQQ-plot.................................. 24
5.22Kếtqukimđnhad.test.................................. 24
5.23 Kết quả kiểm tính thống kiểm định và giá trị tới hạn . . . . . . . . . . . . . . . . . 25
5.24 Kết quả vẽ các đồ thị QQ-plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.25Kếtqukimđnhad.test.................................. 27
5.26 Kết quả kiểm định leveneTest kiểm tra giả định 2 . . . . . . . . . . . . . . . . . . . . . 27
5.27 Kết quả phân tích phương sai một nhân tố . . . . . . . . . . . . . . . . . . . . . . . . 28
5.28Kếtqusosánhbi ..................................... 28
5.29 Kết quả hình hồi quy tuyến tính bội . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.30Kếtqumôhình2...................................... 31
5.31 Kết quả các đồ thị kiểm tra giả định hình . . . . . . . . . . . . . . . . . . . . . . . 32
5.32 Kết quả các đồ thị kiểm tra giả định hình . . . . . . . . . . . . . . . . . . . . . . . 33
Giảng viên hướng dẫn: Th.S Nguyễn Kiều Dung Trang 2
Phân tích nhân tố ảnh hưởng đến lưu lượng xe qua cầu trung bình trong tương lai Lớp: L13
1 TỔNG QUAN DỮ LIỆU
Tập dữ liệu thể hiện các phép đo, xếp hạng khác nhau và thông tin khác liên quan đến các cây cầu
nước Mỹ. Tệp dữ liệu được sử dụng để hiểu và quản sở hạ tầng cầu, đánh giá các điều kiện, lập
kế hoạch bảo trì và đánh giá tác động của các yếu tố khí hậu lên cầu,...
Dữ liệu gốc được cung cấp tại:
https://www.kaggle.com/datasets/cynthiamengyuanli/2022-national-bridge-inventory-data
Sau đây tóm tắt các danh mục dữ liệu chính:
General Bridge Information: Bao gồm các định danh duy nhất, tên và thông tin vị trí (ví
dụ: tiểu bang, quận, thành phố, độ, kinh độ, quận của quan đường bộ) của cầu.
Construction Details: Các trường y cung cấp thông tin về thời điểm cầu được xây dựng hoặc
tái thiết, vật liệu và thiết kế của nhịp chính và nhịp dẫn, cũng như thông tin về kết cấu mặt
cầu.
Size and Dimension Measurements: ao gồm nhiều phép đo khác nhau như chiều dài cầu, số nhịp,
chiều cao thông thủy, chiều rộng đường và các đặc điểm kích thước khác.
Condition Ratings: Bộ dữ liệu một số trường đưa ra xếp hạng tình trạng cho các b phận
khác nhau của cầu, như mặt cầu, kết cấu thượng tầng, kết cấu hạ tầng và các bộ phận khác.
Ngoài ra còn các trường v tình trạng cầu tổng thể, đánh giá kết cấu và giá trị cầu quan
trọng v xói mòn.
Traffic Information: Bao gồm các trường như lưu lượng giao thông trung bình hàng ngày, lưu
lượng giao thông dự kiến trong tương lai và các chỉ định liên quan đến giao thông (ví dụ: loại
dịch vụ trên cầu, mạng lưới xe tải quốc gia được chỉ định).
Maintenance and Inspection Data: thông tin chi tiết về các cuộc kiểm tra, tần suất kiểm tra,
trách nhiệm bảo trì, chi phí cải thiện và công việc đề xuất.
Operational Status and Ratings: Phần y cung cấp các trường như xếp hạng hoạt động, xếp
hạng hàng tồn kho, đăng cầu và trạng thái thu phí.
Weather and Climate Information: Bao gồm các trường liên quan đến điều kiện thời tiết và dữ
liệu khí hậu thể ảnh hưởng đến tình trạng và tuổi thọ của cầu.
Governance and Legislation: Các trường y chứa thông tin v tổ chức quy hoạch đô thị, khu
vực quốc hội Hoa Kỳ, khu vực thượng viện tiểu bang và khu vực nhà nước.
Giảng viên hướng dẫn: Th.S Nguyễn Kiều Dung Trang 3
Phân tích nhân tố ảnh hưởng đến lưu lượng xe qua cầu trung bình trong tương lai Lớp: L13
Sau đây tóm tắt 13 biến đã được lựa chọn trong nội dung phân tích: Các bước thực hiện:
STT Tên biến Loại biến Đơn vị tả
1 Average_Daily_Traffic liên tục xe lưu lượng xe lưu thông
trung bình hằng ngày
2 Approach_Roadway_Width liên tục ft Chiều rộng của đường tiếp cận
3 Lanes_On_the_Structure rời rạc làn Số làn đường trên một cấu trúc
4 Bridge_Median_Code phân loại liên quan đến
vạch phân cách trên một cầu.
5 Designated_National_Truck phân loại - đại diện cho các mạng lưới
_Network_Code đường quốc gia xe tải lớn
được phép di chuyển trên đó.
6 Inventory_Route_Total liên tục ft Chiều rộng khoảng trống
_Horizontal_Clearance theo phương ngang
7 Mile_Point liên tục miles Khoảng cách đo từ điểm
đầu cầu
8 Computed_Average_Daily liên tục xe tải Khối lượng giao thông của
_Truck_Traffic_Volume xe tải trung bình hàng ngày
9 Bridge_Roadway_Width liên tục ft Kích thước mặt cầu
_Curb_to_Curb đo từ mép trong mặt cầu
10 Route_Signing_Prefix_Code phân loại - hiệu giúp xác định
tuyến đường cụ thể
11 Deck_Width_Out_to_Out liên tục ft Kích thước mặt cầu
đo cạnh ngoài mặt cầu
12 Inventory_Route_NHS_Code phân loại - định danh
cho các tuyến đường trong
hệ thống mạng đường quốc gia
13 Future_Average_Daily_Traffic liên tục xe lưu lượng xe lưu thông
trung bình hằng ngày
trong tương lai
1. Đọc dữ liệu (Import data).
2. Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết)
3. Làm dữ liệu: (Data visualization)
4. Thống kê tả (Descriptive statistic): dùng thống kê mẫu và dùng đồ thị.
5. Thống kê suy diễn (Inferential statistic):
Kiểm định 1 mẫu.
Kiểm định 2 mẫu.
Phân tích phương sai một nhân tố.
Hồi quy tuyến tính bội.
Giảng viên hướng dẫn: Th.S Nguyễn Kiều Dung Trang 4