
Bài giảng Khai thác dữ liệu: Chương 6 - ThS. Dương Phi Long
lượt xem 0
download

Bài giảng "Khai thác dữ liệu: Chương 6 - Phân lớp dữ liệu" trình bày các nội dung chính sau: Tổng quan về phân lớp dữ liệu; phương pháp dựa trên cây quyết định; phương pháp dựa trên Luật; phương pháp dựa trên thể hiện;... Mời các bạn cùng tham khảo!
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Khai thác dữ liệu: Chương 6 - ThS. Dương Phi Long
- TRƯỜNG ÐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA HỆ THỐNG THÔNG TIN Tài liệu bài giảng: KHAI THÁC DỮ LIỆU – IS252 Chương 6: Phân lớp dữ liệu ThS. Dương Phi Long – Email: longdp@uit.edu.vn
- Supervised vs. Unsupervised Learning - Supervised Learning • Supervision: Dữ liệu huấn luyện (quan sát, đo lường, …) được kèm theo nhãn lớp • Dữ liệu mới được phân lớp dựa trên tập huấn luyện (classification) - Unsupervised Learning • Nhãn lớp của dữ liệu huấn luyện không xác định • Đưa ra một tập hợp các phép đo, quan sát, ... với mục đích thiết lập sự tồn tại của các lớp hoặc cụm trong dữ liệu (clustering) 2
- Supervised vs. Unsupervised Learning 3
- Supervised vs Unsupervised vs Semi-Supervised learning Overview Process Subtypes Examples Decision tree, Random Majority of algorithms. Mapping function takes Classification forest, SVM, K-NN, Supervised Machine is trained using inputs and matches to Neural network, learning well-labeled data; inputs outputs, creating a Linear regression, and outputs are matched. target function Regression Logistic regression, … Clustering K-Means, C-Means, Unlabeled data (inputs Unsupervised Inputs are used to Hierarchy, Gaussian only) is analyzed. learning create a model of the Association Mixture Learning happens without Apriori, FP-Growth data supervision PCA, LDA,… Dimensionality reduction Some data is labeled, Semi- some not. Self-training, Mixture Combination of above Supervised Goal: better results than processes All the above models, Semi-supervised learning labeled data alone. SVM,… Good for real world data. 4
- 5
- NỘI DUNG BÀI HỌC 01 Tổng quan về phân lớp dữ liệu 02 Phương pháp dựa trên Cây quyết định 03 Phương pháp dựa trên Luật 04 Phương pháp Naïve Bayes 05 Phương pháp dựa trên thể hiện 6
- NỘI DUNG BÀI HỌC 06 Mạng neural 07 Các phương pháp khác 08 Đánh giá mô hình 7
- 1. Phân lớp dữ liệu Tổng quan về 2. Quy trình phân lớp Phân lớp dữ liệu 3. Các kỹ thuật phân lớp 8
- 1. Phân lớp dữ liệu - Phân lớp dữ liệu • Dự đoán nhãn lớp (discrete hoặc nominal) • Xây dựng mô hình phân lớp dựa trên tập huấn luyện và các nhãn lớp của thuộc tính phân lớp và sử dụng mô hình đó để phân lớp cho dữ liệu mới. Independent Categorical Input variables Output variable 9
- 1. Phân lớp dữ liệu - Some Applications of Machine Learning Classification Problems • Image classification • Voice recognition • Fraud detection • Medical diagnostic test • Document classification • Customer behavior prediction • Spam filtering • Product categorization • Facial recognition • Malware classification 10
- 1. Phân lớp dữ liệu - Types of Classification Tasks in Machine Learning • Binary Classification • Multi-Class Classification • Multi-Label Classification • Imbalanced Classification Imbalanced data Classification 11
- 2. Các bước trong phân lớp dữ liệu a) Training Training Data Learning Algorithm Output Real data Classification Model Evaluation and Application (Test data) b) Classification (Test and Evaluation) 12
- 2. Các bước trong phân lớp dữ liệu - Bước 1: Xây dựng mô hình – Học/ huấn luyện • Mỗi bộ dữ liệu được gán vào các lớp (nhãn) được xác định trước • Tập huấn luyện (train set): Tập các bộ dữ liệu dùng để xây dựng mô hình • Tìm ra các luật phân lớp, cây quyết định hoặc công thức toán học để mô tả mô hình. 13
- 2. Các bước trong phân lớp dữ liệu - Bước 2: Sử dụng mô hình – Phân lớp các đối tượng chưa biết • Đánh giá độ chính xác của mô hình § So sánh nhãn mẫu test với kết quả phân lớp từ mô hình § Tỷ lệ chính xác: tỷ lệ mẫu thử được phân lớp chính xác § Tập kiểm thử (test set) độc lập với tập huấn luyện (training set) • Sử dụng mô hình để phân lớp nếu độ chính xác chấp nhận được 14
- Training set – Testing set – Validation set Training set: The subset of data used to train a machine learning model Testing set: The subset of data used to evaluate the performance of a trained machine learning model on unseen examples, simulating real-world data Validation set: The intermediary subset of data used during the model development process to fine-tune hyper-parameter 15
- Quy trình phân lớp – B1. Xây dựng mô hình Classification Algorithms Training data NAME RANK YEARS TENURED Classifier Mary Assistant Prof 3 no (Model) James Assistant Prof 7 yes Bill Professor 2 no John Associate Prof 7 yes Mark Assistant Prof 6 no IF rank = ‘professor’OR years > 6 Annie Associate Prof 3 no THEN tenured = yes 16
- Quy trình phân lớp – B2. Sử dụng mô hình Classifier (Model) Testing data Unseen Data NAME RANK YEARS TENURED Tom Assistant Prof 2 no (Jeff, Professor, 4) Lisa Associate Prof 7 no Tenured? Jack Professor 5 yes Ann Assistant Prof 7 yes 17
- 3. Các kỹ thuật phân lớp dữ liệu - Phương pháp dựa trên cây quyết định - Phương pháp dựa trên luật - Phương pháp Naïve Bayes - Phương pháp dựa trên thể hiện - Mạng neural / Deep Learning - Tập thô - SVM (Support Vector Machine) (*) - Ensemble Methods (*) (*): tìm hiểu, seminar 18
- Bài toán phân lớp 19
- State sleep Classification 20

CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Khai phá dữ liệu web (PGS.TS. Hà Quang Thụy) - Chương 7. Phân lớp web
67 p |
255 |
89
-
Bài giảng Cơ Sở Dữ Liệu - ĐH Công Nghệ Thông Tin
228 p |
221 |
85
-
Bài giảng Cơ sở dữ liệu đất đai
49 p |
701 |
80
-
DATA MINING AND APPLICATION: TỔNG HỢP MỘT SỐ VÍ DỤ ỨNG DỤNG
3 p |
442 |
71
-
Bài giảng Cơ sở dữ liệu - Hồ Cẩm Hà
163 p |
307 |
35
-
DATA MINING AND APPLICATION: TỔNG QUAN
13 p |
118 |
28
-
Bài giảng tin học ứng dụng: Chương II - Cơ sở dữ liệu
29 p |
199 |
26
-
Bài giảng Tin học nâng cao - ThS. Nguyễn Thanh Trường
57 p |
150 |
17
-
Bài giảng Khai thác dữ liệu & ứng dụng (data mining) - Bài 4: Khai thác chuỗi tuần tự - Nguyễn Hoàng Tú Oanh
18 p |
277 |
14
-
Bài giảng - Bài 2: Hệ quản trị cơ sở dữ liệu
12 p |
93 |
11
-
Bài giảng Hệ quản trị cơ sở dữ liệu: Chương 2 - ĐH Công nghiệp Thực phẩm
142 p |
79 |
8
-
Bài giảng Tin học ứng dụng: Chương 2 - ThS. Hoàng Hải Xanh
93 p |
18 |
5
-
Bài giảng Quản trị cơ sở dữ liệu - Chương 4: Tổ chức khai thác và quản trị cơ sở dữ liệu trong doanh nghiệp
5 p |
23 |
5
-
Bài giảng Công tác triển khai truyền nhận, quản trị hệ thống, kiểm duyệt dữ liệu khai thác và công bố thông tin
37 p |
43 |
5
-
Bài giảng Các hệ quản trị CSDL: Chương 4 - ĐH Sư phạm TP. HCM
66 p |
75 |
4
-
Bài giảng Hệ quản trị cơ sở dữ liệu: Chương 2 - Nguyễn Thị Uyên Nhi
88 p |
59 |
3
-
Đề cương chi tiết học phần Khai thác dữ liệu (Data mining)
7 p |
57 |
3
-
Bài giảng Lưu trữ và xử lý dữ liệu lớn: Chương 1 - Tổng quan về lưu trữ và xử lý dữ liệu lớn
43 p |
22 |
2


Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn
