
ĐẠI HỌC KINH TẾ QUỐC DÂN
TRƯỜNG CÔNG NGHỆ
----------------
KHÓA LUẬN TỐT NGHIỆP
Phân tích giá nhà đất ở Việt Nam sử dụng mô
hình học máy
Tên sinh viên : Hoàng Khánh Nam
Giảng viên hướng dẫn : Nguyễn Phương Nam
Hà Nội, 5/2024
2024.2 CÔNG NGHỆ THÔNG TIN HOÀNG KHÁNH NAM 11214106

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN
TRƯỜNG CÔNG NGHỆ
----------------
KHÓA LUẬN TỐT NGHIỆP
Phân tích giá nhà đất ở Việt Nam sử dụng mô
hình học máy
Tên sinh viên : Hoàng Khánh Nam
Mã sinh viên : 11214106
Lớp : CNTT K63A
Ngành : Công nghệ thông tin
Khoa : Công nghệ thông tin
Giảng viên hướng dẫn : Nguyễn Phương Nam
(Chữ ký GVHD)
Hà Nội, 5/2024

- 1 -
MỤC LỤC
MỤC LỤC .......................................................................................................................... - 1 -
LỜI CAM ĐOAN ............................................................................................................... - 3 -
LỜI CẢM ƠN .................................................................................................................... - 4 -
DANH MỤC HÌNH ẢNH .................................................................................................. - 5 -
DANH MỤC BẢNG ........................................................................................................... - 6 -
I. GIỚI THIỆU................................................................................................................... - 7 -
1.1. Đặt vấn đề ................................................................................................................. - 7 -
1.2. Thách thức trong bất động sản – Định giá ................................................................. - 7 -
II. CƠ SỞ LÝ THUYẾT VÀ BỘ DỮ LIỆU.................................................................... - 10 -
2.1. Nguồn dữ liệu.......................................................................................................... - 10 -
2.2. Chiến lược xây dựng bộ dữ liệu ............................................................................... - 11 -
2.2.1. Tìm hiểu sơ bộ về đặc tính nhà đất ................................................................... - 11 -
2.2.2 Công cụ thu thập dữ liệu .................................................................................... - 13 -
2.2.3 Tiền xử lý dữ liệu .............................................................................................. - 16 -
III. CHIẾN LƯỢC PHÂN TÍCH THỐNG KÊ THỊ TRƯỜNG .................................... - 18 -
3.1. Cơ sở lý thuyết ........................................................................................................ - 18 -
3.2. Chiến lược thao túng dữ liệu ................................................................................... - 20 -
3.2.1. Xác định đặc trưng quan trọng (Feature Importance) ........................................ - 20 -
3.2.2. Chiến lược trích xuất đặc trưng (Feature Engineering) ...................................... - 21 -
3.2.3. Trực quan hóa dữ liệu (Exploratory Data Analysis - EDA) ............................... - 22 -
3.3. Chiến lược chọn lọc mô hình ................................................................................... - 22 -
3.3.1. Linear Regression (Hồi quy tuyến tính) ............................................................ - 23 -
3.3.2. Polynomial Regression (Hồi quy đa thức)......................................................... - 25 -
3.3.3. Decision Tree Regression (Hồi quy cây quyết định) ......................................... - 27 -
3.3.4. Random Forest Regression (Hồi quy rừng ngẫu nhiên) ..................................... - 29 -
3.3.5. Gradient Boosting Regression (XGBoost, LightGBM, CatBoost) ..................... - 31 -
3.3.6. Neural Network Regression (Hồi quy bằng mạng nơ-ron) ................................ - 33 -
3.3.7. Bayesian Regression (Hồi quy Bayes) .............................................................. - 35 -
3.3.8. Nearest Neighbors Regression (KNN) .............................................................. - 37 -

- 2 -
3.3.9. Ensemble Methods (Stacking, Bagging) ........................................................... - 39 -
3.4. Cơ sở lý thuyết đánh giá mô hình ............................................................................ - 41 -
3.4.1. Mean Squared Error (MSE) .............................................................................. - 41 -
3.4.2. Root Mean Squared Error (RMSE) ................................................................... - 42 -
3.4.3. Mean Absolute Error (MAE) ............................................................................ - 42 -
3.4.4. Mean Squared Logarithmic Error (MSLE)........................................................ - 42 -
3.4.5. Huber Loss ....................................................................................................... - 42 -
3.4.6. Explained Variance .......................................................................................... - 43 -
3.4.7. R² Score (Coefficient of Determination) ........................................................... - 43 -
IV. TRIỂN KHAI MÔ HÌNH VÀ KẾT QUẢ THỰC NGHIỆM ................................... - 44 -
4.1. Đánh giá mô hình trên từng metric .......................................................................... - 44 -
4.2. Đánh giá tổng thể .................................................................................................... - 48 -
V. ĐÁNH GIÁ KẾT QUẢ ............................................................................................... - 50 -
5.1. Đánh giá kết quả hiện tại ......................................................................................... - 50 -
5.2. Hướng phát triển trong tương lai ............................................................................. - 50 -
KẾT LUẬN ...................................................................................................................... - 51 -
TÀI LIỆU THAM KHẢO ............................................................................................... - 52 -

- 3 -
LỜI CAM ĐOAN
Hà nội, ngày tháng năm 20
Sinh viên
(ký, ghi rõ họ tên)

