Bài giảng Máy học nâng cao: Dimension reduction and feature selection - Trịnh Tấn Đạt
lượt xem 6
download
Bài giảng "Máy học nâng cao: Dimension reduction and feature selection" cung cấp cho người học các kiến thức: Introduction - dimensionality reduction and feature selection, dimensionality reduction, feature selection. Cuối bài giảng có phần bài tập để người học ôn tập và củng cố kiến thức.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Máy học nâng cao: Dimension reduction and feature selection - Trịnh Tấn Đạt
- Trịnh Tấn Đạt Khoa CNTT – Đại Học Sài Gòn Email: trinhtandat@sgu.edu.vn Website: https://sites.google.com/site/ttdat88/
- Contents Introduction: dimensionality reduction and feature selection Dimensionality Reduction Principal Component Analysis (PCA) Fisher’s linear discriminant analysis (LDA) Example: Eigenface Feature Selection Homework
- Introduction High-dimensional data often contain redundant features reduce the accuracy of data classification algorithms slow down the classification process be a problem in storage and retrieval hard to interpret (visualize) Why we need dimensionality reduction??? To avoid “curse of dimensionality” https://en.wikipedia.org/wiki/Curse_of_dimensionality To reduce feature measurement cost To reduce computational cost
- Introduction Dimensionality reduction is one of the most popular techniques to remove noisy (i.e., irrelevant) and redundant features. Dimensionality reduction techniques: feature extraction v.s feature selection feature extraction: given N features (set X), extract M new features (set Y) by linear or non- linear combination of all the N features (i.e. PCA, LDA) feature selection: choose a best subset of highly discriminant features of size M from the available N features (i.e. Information Gain, ReliefF, Fisher Score)
- Dimensionality Reduction
- Principal component analysis (PCA) ❖ Variance v.s. Covariance Variance : phương sai của một biến ngẫu nhiên là thước đo sự phân tán thống kê của biến đó, nó hàm ý các giá trị của biến đó thường ở cách giá trị kỳ vọng bao xa. Low variance High variance Covariance: hiệp phương sai là độ đo sự biến thiên cùng nhau của hai biến ngẫu nhiên (phân biệt với phương sai - đo mức độ biến thiên của một biến) N ( x − x )(y − y ) i i Cov( X , Y ) = i =1 (N − 1)
- Principal component analysis (PCA) Mean (expected value): giá trị “mong muốn”, biểu diễn giá trị trung bình của một biến. Standard Deviation: Độ lệch chuẩn đo tính biến động của giá trị mang tính thống kê. Nó cho thấy sự chênh lệch về giá trị của từng thời điểm đánh giá so với giá trị trung bình.
- Principal component analysis (PCA) Representing Covariance between dimensions as a matrix e.g. for 3 dimensions: cov(x,y) = cov(y,x) hence matrix is symmetrical about the diagonal N-dimensional data will result in NxN covariance matrix
- Principal component analysis (PCA) What is the interpretation of covariance calculations? e.g.: dữ liệu 2 chiều x: số lượng giờ học một môn học y: điểm số của một môn học covariance value ~ 104.53 what does this value mean? -> số lượng giờ học tăng , điểm số
- Principal component analysis (PCA) Exact value is not as important as it’s sign. A positive value of covariance indicates both dimensions increase or decrease together (e.g. as the number of hours studied increases, the marks in that subject increase.) A negative value indicates while one increases the other decreases, or vice-versa (e.g. active social life v.s performance in class.) If covariance is zero: the two dimensions are independent of each other (e.g. heights of students vs the marks obtained in a subject.)
- Principal component analysis (PCA)
- Principal component analysis (PCA) Principal components analysis (PCA) là một phương pháp để đơn giản hóa một tập dữ liệu (simplify a dataset) , chằng hạn giảm số chiều của dữ liệu. “It is a linear transformation that chooses a new coordinate system for the data set such that the greatest variance by any projection of the data set comes to lie on the first axis (then called the first principal component), the second greatest variance on the second axis and so on. ” PCA có thể được dùng để giảm số chiều bằng cách loại bỏ những thành phần chính không quan trọng.
- Principal component analysis (PCA) loại bỏ sự tương quan này bằng cách xoay trục (cơ sở) Ví dụ: dữ liệu trên trục mới đã giảm sự tương quan đáng kể (biến Y1 và Y2 gần như không tương quan) sự thay đổi của dữ liệu phụ thuộc phần lớn vào biến Y1 giảm số chiều dữ liệu mà không làm giàm quá nhiều “phương sai” của dữ liệu khi thực hiện các phân tích đa biến mà trong đó các biến có tương quan với nhau gây nhiều khó khăn
- Principal component analysis (PCA) Note: Giúp giảm số chiều của dữ liệu; Thay vì giữ lại các trục tọa độ của không gian cũ, PCA xây dựng một không gian mới ít chiều hơn, nhưng lại có khả năng biểu diễn dữ liệu tốt tương đương không gian cũ.
- Principal component analysis (PCA) Ví dụ: Khám phá liên kết tiềm ẩn nhờ đổi hệ trục tọa độ, cách nhìn khác nhau về cùng một dữ liệu.
- Principal component analysis (PCA) Ví dụ: Notice that "the maximum variance" and "the minimum error" are reached at the same time, namely when the line points to the magenta ticks
- Principal component analysis (PCA) How to find the optimal linear transformation A ( where y = Ax) -1. Origin of PCA coordinate mean of samples -2. Maximize projected variance -3. Minimize projection cost min x − y
- Principal component analysis (PCA) https://hadrienj.github.io/posts/Deep-Learning-Book-Series-2.12-Example-Principal-Components- Analysis/
- Principal component analysis (PCA) Note: The eigenvectors of the covariance matrix define a new coordinate system Eigenvector with largest eigenvalue captures the most variation among training vectors x eigenvector with smallest eigenvalue has least variation The eigenvectors are known as principal components https://hadrienj.github.io/posts/Deep-Learning-Book-Series-2.12-Example-Principal-Components-Analysis/
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Máy học nâng cao: Python, jupyter notebook, kaggle - Trịnh Tấn Đạt
48 p | 95 | 26
-
Bài giảng Tin học nâng cao: Phần 1 - ĐH Bách Khoa Hà Nội
116 p | 110 | 8
-
Bài giảng Máy học nâng cao: Naive bayes classification - Trịnh Tấn Đạt
36 p | 45 | 8
-
Bài giảng Máy học nâng cao: Deep learning an introduction - Trịnh Tấn Đạt
109 p | 51 | 6
-
Bài giảng Máy học nâng cao: Clustering - Trịnh Tấn Đạt
70 p | 52 | 6
-
Bài giảng Lập trình nâng cao: Hoạt hình, tách file - Trần Quốc Long
28 p | 66 | 6
-
Bài giảng Máy học nâng cao: Support vector machine - Trịnh Tấn Đạt
77 p | 45 | 5
-
Bài giảng Lập trình nâng cao: Lớp - Trần Quốc Long
52 p | 89 | 5
-
Bài giảng Lập trình nâng cao: Tìm kiếm và đếm - Trần Quốc Long
54 p | 70 | 5
-
Bài giảng Máy học nâng cao: Giới thiệu - Trịnh Tấn Đạt
41 p | 36 | 5
-
Bài giảng Máy học nâng cao: Artificial neural network - Trịnh Tấn Đạt
62 p | 38 | 4
-
Bài giảng Máy học nâng cao: Linear regression - Trịnh Tấn Đạt
64 p | 23 | 4
-
Bài giảng Máy học nâng cao: Genetic algorithm - Trịnh Tấn Đạt
70 p | 52 | 4
-
Bài giảng Máy học nâng cao: Logistic regression - Trịnh Tấn Đạt
27 p | 50 | 3
-
Bài giảng Máy học nâng cao: Association rules - Trịnh Tấn Đạt
76 p | 60 | 3
-
Bài giảng Lập trình nâng cao - Chương 7: Simple AI
54 p | 47 | 3
-
Bài giảng Lập trình nâng cao: Bài 7+8+9 - Trương Xuân Nam
43 p | 27 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn