1
Nhập môn
Học máy và Khai phá dữ liệu
(IT3190)
2
Nội dung môn học
Lecture 1: Giới thiệu về Học máy và khai phá dữ liệu
Lecture 2: Thu thập và tiền xử lý dữ liệu
Lecture 3: Hồi quy tuyến tính (Linear regression)
Lecture 4+5: Phân cụm
Lecture 6: Phân loại và Đánh giá hiệu năng
Lecture 7: dựa trên láng giềng gần nhất (KNN)
Lecture 8: Cây quyết định và Rừng ngu nhiên
Lecture 9: Học dựa trên xác suất
Lecture 10: Mạng nơron (Neural networks)
Lecture 11: Máy vector hỗ trợ (SVM)
Lecture 12: Khai phá tập mục thường xuyên và các luật kết hợp
Lecture 13: Thảo luận ứng dụng học máy và khai phá dữ liệu trong thực tế
3
Học có giám sát
Học có giám sát (Supervised learning)
Tập dữ liệu học (training data) bao gồm các quan t (examples,
observations), mà mỗi quan sát được gắn kèm với một giá trị đầu ra
mong muốn.
Mục đích là học một hàm (vd: một phân lớp, một hàm hồi quy,...) phù
hợp với tập dữ liệu hiện có và khả năng tổng quát hoá cao.
Hàm học được sau đó sẽ được dùng để dự đoán cho các quan sát mới.
Phân loại (classification): nếu đầu ra (output – y) thuộc tập rời rạc và
hữu hạn.
Hồi quy (regression): nếu đầu ra (output – y) là các số thực.
4
Hồi quy tuyến tính: Giới thiệu
Bài toán hồi quy: cần học một hàm y = f(x)từ một tập học cho
trước D= {(x1, y1), (x2, y2), …, (xM, yM)} trong đó yif(xi) với
mọi i.
Mỗi quan sát được biểu diễn bằng một véctơ nchiều, chẳng hạn xi=
(xi1, xi2, …, xin)T.
Mỗi chiều biểu diễn một thuộc tính (attribute/feature)
Mô hình tuyến tính: nếu giả thuyết hàm y = f(x) là hàm có
dạng tuyến tính
f(x) = w0+ w1x1+ … + wnxn
Học một hàm hồi quy tuyến tính thì tương đương với việc học
véctơ trọng số w= (w0, w1, …, wn)T
5