Buổi 2: Một dự án máy học
(Tài liệu nội bộ)
Tháng 3 năm 2020
Quy trình thực hiện dự án máy học
1Xác định bối cảnh, yêu cầu
2Thu thập dữ liệu
3Khám phá dữ liệu
4Chuẩn bị dữ liệu
5Huấn luyện hình
6Tinh chỉnh hình
7Trình bày giải pháp
8Vận hành, theo dõi, bảo trì hệ thống
Làm việc với dữ liệu thực tế
Khi học máy học nên sử dụng dữ liệu thực tế, không nên dùng dữ liệu nhân tạo.
Một vài nguồn cung cấp dữ liệu miễn phí:
Một số kho dữ liệu mở phổ biến
UC Irvine Machine Learning Repository
Kaggle datasets
Amazon’s AWS datasets
Một vài siêu cổng dữ liệu (liệt các kho dữ liệu mở khác)
Data Portals
OpenDataMonitor
Quandl
Một số trang khác liệt các kho dữ liệu mở
Wikipedia’s list of Machine Learning datasets
Quora.com
The datasets subreddit
Dữ liệu sử dụng trong buổi học: California Housing Prices dataset1
Dữ liệu giá nhà thu thập tại bang California năm 1990.
Để phục vụ cho môn học này, tác giả đã bỏ một số thuộc tính thêm vào một
thuộc tính dạng phân loại.
124 122 120 118 116 114
Longitude
34
36
38
40
42
Latitude
Population
$15k
$63k
$112k
$160k
$209k
$258k
$306k
Median House Value
1[1] Pace and Barry. “Sparse spatial autoregressions”. 1997.
Nội dung trình bày
1Xác định bối cảnh, yêu cầu