
Buổi 2: Một dự án máy học
(Tài liệu nội bộ)
Tháng 3 năm 2020

Làm việc với dữ liệu thực tế
Khi học máy học nên sử dụng dữ liệu thực tế, không nên dùng dữ liệu nhân tạo.
Một vài nguồn cung cấp dữ liệu miễn phí:
•Một số kho dữ liệu mở phổ biến
▶UC Irvine Machine Learning Repository
▶Kaggle datasets
▶Amazon’s AWS datasets
•Một vài siêu cổng dữ liệu (liệt kê các kho dữ liệu mở khác)
▶Data Portals
▶OpenDataMonitor
▶Quandl
•Một số trang khác liệt kê các kho dữ liệu mở
▶Wikipedia’s list of Machine Learning datasets
▶Quora.com
▶The datasets subreddit

Dữ liệu sử dụng trong buổi học: California Housing Prices dataset1
Dữ liệu giá nhà ở thu thập tại bang California năm 1990.
Để phục vụ cho môn học này, tác giả đã bỏ một số thuộc tính và thêm vào một
thuộc tính dạng phân loại.
124 122 120 118 116 114
Longitude
34
36
38
40
42
Latitude
Population
$15k
$63k
$112k
$160k
$209k
$258k
$306k
Median House Value
1[1] Pace and Barry. “Sparse spatial autoregressions”. 1997.