intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Khai thác dữ liệu: Chương 6 - ThS. Dương Phi Long

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:193

1
lượt xem
0
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng "Khai thác dữ liệu: Chương 6 - Phân lớp dữ liệu" trình bày các nội dung chính sau: Tổng quan về phân lớp dữ liệu; phương pháp dựa trên cây quyết định; phương pháp dựa trên Luật; phương pháp dựa trên thể hiện;... Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Bài giảng Khai thác dữ liệu: Chương 6 - ThS. Dương Phi Long

  1. TRƯỜNG ÐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA HỆ THỐNG THÔNG TIN Tài liệu bài giảng: KHAI THÁC DỮ LIỆU – IS252 Chương 6: Phân lớp dữ liệu ThS. Dương Phi Long – Email: longdp@uit.edu.vn
  2. Supervised vs. Unsupervised Learning - Supervised Learning • Supervision: Dữ liệu huấn luyện (quan sát, đo lường, …) được kèm theo nhãn lớp • Dữ liệu mới được phân lớp dựa trên tập huấn luyện (classification) - Unsupervised Learning • Nhãn lớp của dữ liệu huấn luyện không xác định • Đưa ra một tập hợp các phép đo, quan sát, ... với mục đích thiết lập sự tồn tại của các lớp hoặc cụm trong dữ liệu (clustering) 2
  3. Supervised vs. Unsupervised Learning 3
  4. Supervised vs Unsupervised vs Semi-Supervised learning Overview Process Subtypes Examples Decision tree, Random Majority of algorithms. Mapping function takes Classification forest, SVM, K-NN, Supervised Machine is trained using inputs and matches to Neural network, learning well-labeled data; inputs outputs, creating a Linear regression, and outputs are matched. target function Regression Logistic regression, … Clustering K-Means, C-Means, Unlabeled data (inputs Unsupervised Inputs are used to Hierarchy, Gaussian only) is analyzed. learning create a model of the Association Mixture Learning happens without Apriori, FP-Growth data supervision PCA, LDA,… Dimensionality reduction Some data is labeled, Semi- some not. Self-training, Mixture Combination of above Supervised Goal: better results than processes All the above models, Semi-supervised learning labeled data alone. SVM,… Good for real world data. 4
  5. 5
  6. NỘI DUNG BÀI HỌC 01 Tổng quan về phân lớp dữ liệu 02 Phương pháp dựa trên Cây quyết định 03 Phương pháp dựa trên Luật 04 Phương pháp Naïve Bayes 05 Phương pháp dựa trên thể hiện 6
  7. NỘI DUNG BÀI HỌC 06 Mạng neural 07 Các phương pháp khác 08 Đánh giá mô hình 7
  8. 1. Phân lớp dữ liệu Tổng quan về 2. Quy trình phân lớp Phân lớp dữ liệu 3. Các kỹ thuật phân lớp 8
  9. 1. Phân lớp dữ liệu - Phân lớp dữ liệu • Dự đoán nhãn lớp (discrete hoặc nominal) • Xây dựng mô hình phân lớp dựa trên tập huấn luyện và các nhãn lớp của thuộc tính phân lớp và sử dụng mô hình đó để phân lớp cho dữ liệu mới. Independent Categorical Input variables Output variable 9
  10. 1. Phân lớp dữ liệu - Some Applications of Machine Learning Classification Problems • Image classification • Voice recognition • Fraud detection • Medical diagnostic test • Document classification • Customer behavior prediction • Spam filtering • Product categorization • Facial recognition • Malware classification 10
  11. 1. Phân lớp dữ liệu - Types of Classification Tasks in Machine Learning • Binary Classification • Multi-Class Classification • Multi-Label Classification • Imbalanced Classification Imbalanced data Classification 11
  12. 2. Các bước trong phân lớp dữ liệu a) Training Training Data Learning Algorithm Output Real data Classification Model Evaluation and Application (Test data) b) Classification (Test and Evaluation) 12
  13. 2. Các bước trong phân lớp dữ liệu - Bước 1: Xây dựng mô hình – Học/ huấn luyện • Mỗi bộ dữ liệu được gán vào các lớp (nhãn) được xác định trước • Tập huấn luyện (train set): Tập các bộ dữ liệu dùng để xây dựng mô hình • Tìm ra các luật phân lớp, cây quyết định hoặc công thức toán học để mô tả mô hình. 13
  14. 2. Các bước trong phân lớp dữ liệu - Bước 2: Sử dụng mô hình – Phân lớp các đối tượng chưa biết • Đánh giá độ chính xác của mô hình § So sánh nhãn mẫu test với kết quả phân lớp từ mô hình § Tỷ lệ chính xác: tỷ lệ mẫu thử được phân lớp chính xác § Tập kiểm thử (test set) độc lập với tập huấn luyện (training set) • Sử dụng mô hình để phân lớp nếu độ chính xác chấp nhận được 14
  15. Training set – Testing set – Validation set Training set: The subset of data used to train a machine learning model Testing set: The subset of data used to evaluate the performance of a trained machine learning model on unseen examples, simulating real-world data Validation set: The intermediary subset of data used during the model development process to fine-tune hyper-parameter 15
  16. Quy trình phân lớp – B1. Xây dựng mô hình Classification Algorithms Training data NAME RANK YEARS TENURED Classifier Mary Assistant Prof 3 no (Model) James Assistant Prof 7 yes Bill Professor 2 no John Associate Prof 7 yes Mark Assistant Prof 6 no IF rank = ‘professor’OR years > 6 Annie Associate Prof 3 no THEN tenured = yes 16
  17. Quy trình phân lớp – B2. Sử dụng mô hình Classifier (Model) Testing data Unseen Data NAME RANK YEARS TENURED Tom Assistant Prof 2 no (Jeff, Professor, 4) Lisa Associate Prof 7 no Tenured? Jack Professor 5 yes Ann Assistant Prof 7 yes 17
  18. 3. Các kỹ thuật phân lớp dữ liệu - Phương pháp dựa trên cây quyết định - Phương pháp dựa trên luật - Phương pháp Naïve Bayes - Phương pháp dựa trên thể hiện - Mạng neural / Deep Learning - Tập thô - SVM (Support Vector Machine) (*) - Ensemble Methods (*) (*): tìm hiểu, seminar 18
  19. Bài toán phân lớp 19
  20. State sleep Classification 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
9=>0