
TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN
TRƯỜNG CÔNG NGHỆ
----------------
KHÓA LUẬN TỐT NGHIỆP
ĐỀ TÀI:
DỰ BÁO DOANH SỐ BÁN LẺ TỪ DỮ LIỆU CHUỖI THỜI GIAN
BẰNG MÔ HÌNH THỐNG KÊ, HỌC MÁY VÀ MẠNG NƠ-RON
Tên sinh viên : Bùi Thị Dạ Hương
Giảng viên hướng dẫn : TS.Lương Văn Thiện
2025. kỳ II KHOA HỌC MÁY TÍNH BÙI THỊ DẠ HƯƠNG 11218410

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN
TRƯỜNG CÔNG NGHỆ
----------------
KHÓA LUẬN TỐT NGHIỆP
ĐỀ TÀI:
DỰ BÁO DOANH SỐ BÁN LẺ TỪ DỮ LIỆU CHUỖI THỜI GIAN BẰNG
MÔ HÌNH THỐNG KÊ, HỌC MÁY VÀ MẠNG NƠ-RON
Tên sinh viên : Bùi Thị Dạ Hương
Mã sinh viên : 11218410
Lớp : Khoa học máy tính K63
Ngành : Khoa học máy tính
Khoa : Công nghệ thông tin
Giảng viên hướng dẫn : TS.Lương Văn Thiện
(Chữ ký GVHD)
Hà Nội, 5/2025

1
MỤC LỤC
MỤC LỤC .................................................................................................................. 1
LỜI CAM ĐOAN ....................................................................................................... 4
LỜI CẢM ƠN ............................................................................................................ 5
DANH MỤC CÁC TỪ VIẾT TẮT ........................................................................... 6
DANH MỤC BẢNG, BIỂU ĐỒ ................................................................................ 7
DANH MỤC HÌNH ................................................................................................... 8
MỞ ĐẦU .................................................................................................................... 9
CHƯƠNG 1. TỔNG QUAN VỀ ĐỀ TÀI ............................................................... 10
1.1. Giới thiệu đề tài ............................................................................................... 10
1.1.1. Tổng quan và lý do chọn đề tài .................................................................. 10
1.1.2. Mục tiêu .................................................................................................... 11
1.1.3. Đối tượng và phạm vi nghiên cứu .............................................................. 11
CHƯƠNG 2. CƠ SỞ LÝ THUYẾT ........................................................................ 13
2.1. Giới thiệu chung về Trí tuệ nhân tạo và Học máy ............................................ 13
2.1.1. Trí tuệ nhân tạo ......................................................................................... 13
2.1.2. Học máy (Machine Learning - ML) ........................................................... 13
2.1.3. Mối liên hệ giữ AI, ML và Dự báo chuỗi thời gian .................................... 13
2.2. Giới thiệu chung về Trí tuệ nhân tạo và Học máy ............................................ 14
2.2.1. Khái niệm Chuỗi thời gian......................................................................... 14
2.2.2. Các thành phần cơ bản của Chuỗi thời gian ............................................... 14
2.2.3. Thách thức trong dự báo Chuỗi thời gian ngành bán lẻ .............................. 14
2.3. Các phương pháp thống kê trong dự báo Chuỗi thời gian ................................. 15
2.3.1. Phương pháp Trung bình trượt (Moving Average – MA)........................... 15
2.3.2. Phương pháp Dự báo ngây thơ (Na𝒊ve Forecasting) .................................. 16
2.4. Phương pháp Hồi quy tuyến tính trong dự báo Chuỗi thời gian ........................ 16
2.4.1. Khái niệm .................................................................................................. 16
2.4.2. Ứng dụng Hồi quy tuyến tính trong dự báo Chuỗi thời gian ...................... 17
2.4.3. Ưu điểm và hạn chế ................................................................................... 17
2.5. Giới thiệu chung về Trí tuệ nhân tạo và Học máy ............................................ 17
2.5.1. Random Forest .......................................................................................... 18
2.5.2. XGBoost ................................................................................................... 19

2
2.5.3. LightGBM ................................................................................................. 20
2.6. Mạng Nơ-ron truyền thẳng (Feedforward Neural Network – FNN) .................. 21
2.6.1. Kiến trúc mạng FNN ................................................................................. 21
2.6.1. Chuẩn bị dữ liệu Chuỗi thời gian cho FNN ................................................ 21
2.6.3. Cấu hình mô hình FNN ............................................................................. 22
2.6.4. Ưu điểm và hạn chế ................................................................................... 22
2.7. Các chỉ số đánh giá mô hình dự báo ................................................................. 23
2.7.1. MAE – Sai số tuyệt đối trung bình............................................................. 23
2.7.2. RMSE – Căn bậc hai của sai số bình phương trung bình ............................ 24
2.7.3. 𝑹𝟐 – Hệ số xác định (Coefficient of Determination).................................. 24
2.7.4. So sánh và gợi ý sử dụng ........................................................................... 25
2.8. Phương pháp nghiên cứu ................................................................................. 26
2.8.1. Tổng quan về lý thuyết .............................................................................. 26
2.8.2. Thu thập và Tiền xử lý dữ liệu ................................................................... 27
2.8.3. Xây dựng mô hình ..................................................................................... 27
2.8.4. Đánh giá mô hình ...................................................................................... 28
2.8.5. Kết luận ..................................................................................................... 28
CHƯƠNG 3. DATASET ......................................................................................... 29
3.1. Giới thiệu Dữ liệu ............................................................................................ 29
3.1.1. Tổng quan bộ dữ liệu ................................................................................. 29
3.1.2. Cấu trúc và các trường dữ liệu ................................................................... 29
3.1.3. Phạm vi thời gian và Quy mô dữ liệu......................................................... 32
3.2. Tiền xử lý dữ liệu ............................................................................................ 32
3.2.1. Chuẩn hóa định dạng ngày tháng ............................................................... 32
3.2.2. Kết hợp dữ liệu phụ từ các bảng ................................................................ 33
3.2.3. Kiểm tra và Xử lý dữ liệu bị thiếu ............................................................. 34
3.3. Phân tích khám phá dữ liệu (EDA) .................................................................. 35
3.3.1. Trực quan hóa chuỗi thời gian doanh số .................................................... 35
3.3.2. Phân tích xu hướng, mùa vụ và dịp đặc biệt ............................................... 37
3.3.3. Phân phối doanh số và phát hiện ngoại lệ .................................................. 41
3.3.4. Tương quan giữa các đặc trưng.................................................................. 43
3.4. Tạo đặc trưng đầu vào (Feature Engineering)................................................... 47
3.4.1. Tạo đặc trưng thời gian (Datatime Features) .............................................. 47

3
3.4.2. Tạo đặc trưng theo xu hướng mùa vụ (Trend and Seasonality Features) .... 49
3.5. Xử lý dữ liệu đầu vào cuối cùng ...................................................................... 50
3.5.1. Loại bỏ các biến dư thừa ........................................................................... 50
3.5.2. Chuẩn hóa dữ liệu...................................................................................... 51
3.5.3. Tổng kết dữ liệu sau khi xử lý ................................................................... 51
3.5.4. Chia tập huấn luyện và kiểm tra (Train-Test Split) .................................... 53
CHƯƠNG 4: CÀI ĐẶT THỬ NGHIỆM VÀ KẾT QUẢ ....................................... 54
4.1. Cài đặt thử nghiệm........................................................................................... 54
4.1.1. Môi trường cài đặt ..................................................................................... 54
4.1.2. Cấu hình phần cứng ................................................................................... 54
4.1.3. Các mô hình thử nghiệm............................................................................ 55
4.1.4. Quy trình thử nghiệm ................................................................................ 55
4.2. Kết quả mô hình trước khi sử dụng kỹ thuật Resampling ................................. 56
4.2.1. Tổng quan quy trình huấn luyện mô hình .................................................. 56
4.2.2. Bảng tổng hợp kết quả ............................................................................... 58
4.2.3. Hình ảnh minh họa kết quả dự báo ............................................................ 61
4.2.4. Phân tích độ quan trọng của các đặc trưng (Features Importance) .............. 63
4.3. Điều chỉnh tham số và Đánh giá kết quả .......................................................... 66
4.3.1. Các tham số được điều chỉnh ..................................................................... 66
4.3.2. Kết quả sau điều chỉnh .............................................................................. 66
KẾT LUẬN .............................................................................................................. 68
TÀI LIỆU THAM KHẢO ....................................................................................... 69

