intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Khai phá dữ liệu (Data mining): Dimensionality reduction and feature selection - Trịnh Tấn Đạt

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:81

13
lượt xem
5
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng Khai phá dữ liệu (Data mining): Dimensionality reduction and feature selection, chương này trình bày những nội dung về: introduction to dimensionality reduction and feature selection; principal component analysis (PCA); fisher’s linear discriminant analysis (LDA);... Mời các bạn cùng tham khảo chi tiết nội dung bài giảng!

Chủ đề:
Lưu

Nội dung Text: Bài giảng Khai phá dữ liệu (Data mining): Dimensionality reduction and feature selection - Trịnh Tấn Đạt

  1. Trịnh Tấn Đạt Khoa CNTT – Đại Học Sài Gòn Email: trinhtandat@sgu.edu.vn Website: https://sites.google.com/site/ttdat88/
  2. Contents  Introduction: dimensionality reduction and feature selection  Dimensionality Reduction  Principal Component Analysis (PCA)  Fisher’s linear discriminant analysis (LDA)  Example: Eigenface  Feature Selection  Homework
  3. Introduction  High-dimensional data often contain redundant features  reduce the accuracy of data classification algorithms  slow down the classification process  be a problem in storage and retrieval  hard to interpret (visualize)  Why we need dimensionality reduction???  To avoid “curse of dimensionality” https://en.wikipedia.org/wiki/Curse_of_dimensionality  To reduce feature measurement cost  To reduce computational cost
  4. Introduction  Dimensionality reduction is one of the most popular techniques to remove noisy (i.e., irrelevant) and redundant features.  Dimensionality reduction techniques: feature extraction v.s feature selection  feature extraction: given N features (set X), extract M new features (set Y) by linear or non- linear combination of all the N features (i.e. PCA, LDA)  feature selection: choose a best subset of highly discriminant features of size M from the available N features (i.e. Information Gain, ReliefF, Fisher Score)
  5. Dimensionality Reduction
  6. Principal component analysis (PCA) ❖ Variance v.s. Covariance  Variance : phương sai của một biến ngẫu nhiên là thước đo sự phân tán thống kê của biến đó, nó hàm ý các giá trị của biến đó thường ở cách giá trị kỳ vọng bao xa. Low variance High variance  Covariance: hiệp phương sai là độ đo sự biến thiên cùng nhau của hai biến ngẫu nhiên (phân biệt với phương sai - đo mức độ biến thiên của một biến) N  ( x − x )(y − y ) i i Cov( X , Y ) = i =1 (N − 1)
  7. Principal component analysis (PCA)  Mean (expected value): giá trị “mong muốn”, biểu diễn giá trị trung bình của một biến.  Standard Deviation: Độ lệch chuẩn đo tính biến động của giá trị mang tính thống kê. Nó cho thấy sự chênh lệch về giá trị của từng thời điểm đánh giá so với giá trị trung bình.
  8. Principal component analysis (PCA)  Representing Covariance between dimensions as a matrix e.g. for 3 dimensions:  cov(x,y) = cov(y,x) hence matrix is symmetrical about the diagonal  N-dimensional data will result in NxN covariance matrix
  9. Principal component analysis (PCA)  What is the interpretation of covariance calculations? e.g.: dữ liệu 2 chiều x: số lượng giờ học một môn học y: điểm số của một môn học covariance value ~ 104.53 what does this value mean? -> số lượng giờ học tăng  , điểm số 
  10. Principal component analysis (PCA)  Exact value is not as important as it’s sign.  A positive value of covariance indicates both dimensions increase or decrease together (e.g. as the number of hours studied increases, the marks in that subject increase.)  A negative value indicates while one increases the other decreases, or vice-versa (e.g. active social life v.s performance in class.)  If covariance is zero: the two dimensions are independent of each other (e.g. heights of students vs the marks obtained in a subject.)
  11. Principal component analysis (PCA)
  12. Principal component analysis (PCA)  Principal components analysis (PCA) là một phương pháp để đơn giản hóa một tập dữ liệu (simplify a dataset) , chằng hạn giảm số chiều của dữ liệu. “It is a linear transformation that chooses a new coordinate system for the data set such that  the greatest variance by any projection of the data set comes to lie on the first axis (then called the first principal component),  the second greatest variance on the second axis  and so on. ”  PCA có thể được dùng để giảm số chiều bằng cách loại bỏ những thành phần chính không quan trọng.
  13. Principal component analysis (PCA) loại bỏ sự tương quan này bằng cách xoay trục (cơ sở)  Ví dụ: dữ liệu trên trục mới đã giảm sự tương quan đáng kể (biến Y1 và Y2 gần như không tương quan) sự thay đổi của dữ liệu phụ thuộc phần lớn vào biến Y1 giảm số chiều dữ liệu mà không làm giàm quá nhiều “phương sai” của dữ liệu khi thực hiện các phân tích đa biến mà trong đó các biến có tương quan với nhau gây nhiều khó khăn
  14. Principal component analysis (PCA)  Note:  Giúp giảm số chiều của dữ liệu;  Thay vì giữ lại các trục tọa độ của không gian cũ, PCA xây dựng một không gian mới ít chiều hơn, nhưng lại có khả năng biểu diễn dữ liệu tốt tương đương không gian cũ.
  15. Principal component analysis (PCA)  Ví dụ: Khám phá liên kết tiềm ẩn nhờ đổi hệ trục tọa độ, cách nhìn khác nhau về cùng một dữ liệu.
  16. Principal component analysis (PCA)  Ví dụ: Notice that "the maximum variance" and "the minimum error" are reached at the same time, namely when the line points to the magenta ticks
  17. Principal component analysis (PCA)  How to find the optimal linear transformation A ( where y = Ax) -1. Origin of PCA coordinate  mean of samples -2. Maximize projected variance -3. Minimize projection cost min x − y
  18. Principal component analysis (PCA) https://hadrienj.github.io/posts/Deep-Learning-Book-Series-2.12-Example-Principal-Components- Analysis/
  19. Principal component analysis (PCA)  Note:  The eigenvectors of the covariance matrix define a new coordinate system  Eigenvector with largest eigenvalue captures the most variation among training vectors x  eigenvector with smallest eigenvalue has least variation  The eigenvectors are known as principal components https://hadrienj.github.io/posts/Deep-Learning-Book-Series-2.12-Example-Principal-Components-Analysis/
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2