
1

Nhập môn
Học máy và Khai phá dữ liệu
(IT3190)
2

Nội dung môn học
•Lecture 1: Giới thiệu về Học máy và khai phá dữ liệu
•Lecture 2: Thu thập và tiền xử lý dữ liệu
•Lecture 3: Hồi quy tuyến tính (Linear regression)
•Lecture 4+5: Phân cụm
•Lecture 6: Phân loại và Đánh giá hiệu năng
•Lecture 7: dựa trên láng giềng gần nhất (KNN)
•Lecture 8: Cây quyết định và Rừng ngẫu nhiên
•Lecture 9: Học dựa trên xác suất
•Lecture 10: Mạng nơron (Neural networks)
•Lecture 11: Máy vector hỗ trợ (SVM)
•Lecture 12: Khai phá tập mục thường xuyên và các luật kết hợp
•Lecture 13: Thảo luận ứng dụng học máy và khai phá dữ liệu trong thực tế
3

Học có giám sát
•Học có giám sát (Supervised learning)
•Tập dữ liệu học (training data) bao gồm các quan sát (examples,
observations), mà mỗi quan sát được gắn kèm với một giá trị đầu ra
mong muốn.
•Mục đích là học một hàm (vd: một phân lớp, một hàm hồi quy,...) phù
hợp với tập dữ liệu hiện có và khả năng tổng quát hoá cao.
•Hàm học được sau đó sẽ được dùng để dự đoán cho các quan sát mới.
•Phân loại (classification): nếu đầu ra (output – y) thuộc tập rời rạc và
hữu hạn.
•Hồi quy (regression): nếu đầu ra (output – y) là các số thực.
4

Hồi quy tuyến tính: Giới thiệu
•Bài toán hồi quy: cần học một hàm y = f(x)từ một tập học cho
trước D= {(x1, y1), (x2, y2), …, (xM, yM)} trong đó yi≈f(xi) với
mọi i.
•Mỗi quan sát được biểu diễn bằng một véctơ nchiều, chẳng hạn xi=
(xi1, xi2, …, xin)T.
•Mỗi chiều biểu diễn một thuộc tính (attribute/feature)
•Mô hình tuyến tính: nếu giả thuyết hàm y = f(x) là hàm có
dạng tuyến tính
f(x) = w0+ w1x1+ … + wnxn
•Học một hàm hồi quy tuyến tính thì tương đương với việc học
véctơ trọng số w= (w0, w1, …, wn)T
5