ĐẠI HC KINH T QUC DÂN
TRƯỜNG CÔNG NGH
----------------
KHÓA LUN TT NGHIP
Phân tích giá nhà đất Vit Nam s dng mô
hình hc máy
Tên sinh viên : Hoàng Khánh Nam
Giảng viên hướng dn : Nguyn Phương Nam
Hà Ni, 5/2024
2024.2 CÔNG NGH THÔNG TIN HOÀNG KHÁNH NAM 11214106
TRƯỜNG ĐẠI HC KINH T QUC DÂN
TRƯỜNG CÔNG NGH
----------------
KHÓA LUN TT NGHIP
Phân tích giá nhà đất Vit Nam s dng mô
hình hc máy
Tên sinh viên : Hoàng Khánh Nam
Mã sinh viên : 11214106
Lp : CNTT K63A
Ngành : Công ngh thông tin
Khoa : Công ngh thông tin
Giảng viên hướng dn : Nguyn Phương Nam
(Ch ký GVHD)
Hà Ni, 5/2024
- 1 -
MC LC
MC LC .......................................................................................................................... - 1 -
LỜI CAM ĐOAN ............................................................................................................... - 3 -
LI CẢM ƠN .................................................................................................................... - 4 -
DANH MC HÌNH NH .................................................................................................. - 5 -
DANH MC BNG ........................................................................................................... - 6 -
I. GII THIU................................................................................................................... - 7 -
1.1. Đặt vấn đề ................................................................................................................. - 7 -
1.2. Thách thc trong bất động sn Định giá ................................................................. - 7 -
II. CƠ SỞTHUYT VÀ B D LIU.................................................................... - 10 -
2.1. Ngun d liu.......................................................................................................... - 10 -
2.2. Chiến lược xây dng b d liu ............................................................................... - 11 -
2.2.1. Tìm hiểu sơ bộ v đặc tính nhà đất ................................................................... - 11 -
2.2.2 Công c thu thp d liu .................................................................................... - 13 -
2.2.3 Tin x lý d liu .............................................................................................. - 16 -
III. CHIẾN LƯỢC PHÂN TÍCH THNG KÊ TH TRƯNG .................................... - 18 -
3.1. Cơ sở lý thuyết ........................................................................................................ - 18 -
3.2. Chiến lược thao túng d liu ................................................................................... - 20 -
3.2.1. Xác định đặc trưng quan trọng (Feature Importance) ........................................ - 20 -
3.2.2. Chiến lược trích xuất đặc trưng (Feature Engineering) ...................................... - 21 -
3.2.3. Trc quan hóa d liu (Exploratory Data Analysis - EDA) ............................... - 22 -
3.3. Chiến lược chn lc mô hình ................................................................................... - 22 -
3.3.1. Linear Regression (Hi quy tuyến tính) ............................................................ - 23 -
3.3.2. Polynomial Regression (Hồi quy đa thc)......................................................... - 25 -
3.3.3. Decision Tree Regression (Hi quy cây quyết định) ......................................... - 27 -
3.3.4. Random Forest Regression (Hi quy rng ngu nhiên) ..................................... - 29 -
3.3.5. Gradient Boosting Regression (XGBoost, LightGBM, CatBoost) ..................... - 31 -
3.3.6. Neural Network Regression (Hi quy bng mạng nơ-ron) ................................ - 33 -
3.3.7. Bayesian Regression (Hi quy Bayes) .............................................................. - 35 -
3.3.8. Nearest Neighbors Regression (KNN) .............................................................. - 37 -
- 2 -
3.3.9. Ensemble Methods (Stacking, Bagging) ........................................................... - 39 -
3.4. Cơ sở lý thuyết đánh giá mô hình ............................................................................ - 41 -
3.4.1. Mean Squared Error (MSE) .............................................................................. - 41 -
3.4.2. Root Mean Squared Error (RMSE) ................................................................... - 42 -
3.4.3. Mean Absolute Error (MAE) ............................................................................ - 42 -
3.4.4. Mean Squared Logarithmic Error (MSLE)........................................................ - 42 -
3.4.5. Huber Loss ....................................................................................................... - 42 -
3.4.6. Explained Variance .......................................................................................... - 43 -
3.4.7. R² Score (Coefficient of Determination) ........................................................... - 43 -
IV. TRIN KHAI MÔ HÌNH VÀ KT QU THC NGHIM ................................... - 44 -
4.1. Đánh giá mô hình trên từng metric .......................................................................... - 44 -
4.2. Đánh giá tổng th .................................................................................................... - 48 -
V. ĐÁNH GIÁ KẾT QU ............................................................................................... - 50 -
5.1. Đánh giá kết qu hin ti ......................................................................................... - 50 -
5.2. Hướng phát triển trong tương lai ............................................................................. - 50 -
KT LUN ...................................................................................................................... - 51 -
TÀI LIU THAM KHO ............................................................................................... - 52 -
- 3 -
LỜI CAM ĐOAN
Hà nội, ngày tháng năm 20
Sinh viên
(ký, ghi rõ h tên)