Bài giảng Khai phá dữ liệu (Data mining): Dimensionality reduction and feature selection - Trịnh Tấn Đạt
lượt xem 5
download
Bài giảng Khai phá dữ liệu (Data mining): Dimensionality reduction and feature selection, chương này trình bày những nội dung về: introduction to dimensionality reduction and feature selection; principal component analysis (PCA); fisher’s linear discriminant analysis (LDA);... Mời các bạn cùng tham khảo chi tiết nội dung bài giảng!
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Khai phá dữ liệu (Data mining): Dimensionality reduction and feature selection - Trịnh Tấn Đạt
- Trịnh Tấn Đạt Khoa CNTT – Đại Học Sài Gòn Email: trinhtandat@sgu.edu.vn Website: https://sites.google.com/site/ttdat88/
- Contents Introduction: dimensionality reduction and feature selection Dimensionality Reduction Principal Component Analysis (PCA) Fisher’s linear discriminant analysis (LDA) Example: Eigenface Feature Selection Homework
- Introduction High-dimensional data often contain redundant features reduce the accuracy of data classification algorithms slow down the classification process be a problem in storage and retrieval hard to interpret (visualize) Why we need dimensionality reduction??? To avoid “curse of dimensionality” https://en.wikipedia.org/wiki/Curse_of_dimensionality To reduce feature measurement cost To reduce computational cost
- Introduction Dimensionality reduction is one of the most popular techniques to remove noisy (i.e., irrelevant) and redundant features. Dimensionality reduction techniques: feature extraction v.s feature selection feature extraction: given N features (set X), extract M new features (set Y) by linear or non- linear combination of all the N features (i.e. PCA, LDA) feature selection: choose a best subset of highly discriminant features of size M from the available N features (i.e. Information Gain, ReliefF, Fisher Score)
- Dimensionality Reduction
- Principal component analysis (PCA) ❖ Variance v.s. Covariance Variance : phương sai của một biến ngẫu nhiên là thước đo sự phân tán thống kê của biến đó, nó hàm ý các giá trị của biến đó thường ở cách giá trị kỳ vọng bao xa. Low variance High variance Covariance: hiệp phương sai là độ đo sự biến thiên cùng nhau của hai biến ngẫu nhiên (phân biệt với phương sai - đo mức độ biến thiên của một biến) N ( x − x )(y − y ) i i Cov( X , Y ) = i =1 (N − 1)
- Principal component analysis (PCA) Mean (expected value): giá trị “mong muốn”, biểu diễn giá trị trung bình của một biến. Standard Deviation: Độ lệch chuẩn đo tính biến động của giá trị mang tính thống kê. Nó cho thấy sự chênh lệch về giá trị của từng thời điểm đánh giá so với giá trị trung bình.
- Principal component analysis (PCA) Representing Covariance between dimensions as a matrix e.g. for 3 dimensions: cov(x,y) = cov(y,x) hence matrix is symmetrical about the diagonal N-dimensional data will result in NxN covariance matrix
- Principal component analysis (PCA) What is the interpretation of covariance calculations? e.g.: dữ liệu 2 chiều x: số lượng giờ học một môn học y: điểm số của một môn học covariance value ~ 104.53 what does this value mean? -> số lượng giờ học tăng , điểm số
- Principal component analysis (PCA) Exact value is not as important as it’s sign. A positive value of covariance indicates both dimensions increase or decrease together (e.g. as the number of hours studied increases, the marks in that subject increase.) A negative value indicates while one increases the other decreases, or vice-versa (e.g. active social life v.s performance in class.) If covariance is zero: the two dimensions are independent of each other (e.g. heights of students vs the marks obtained in a subject.)
- Principal component analysis (PCA)
- Principal component analysis (PCA) Principal components analysis (PCA) là một phương pháp để đơn giản hóa một tập dữ liệu (simplify a dataset) , chằng hạn giảm số chiều của dữ liệu. “It is a linear transformation that chooses a new coordinate system for the data set such that the greatest variance by any projection of the data set comes to lie on the first axis (then called the first principal component), the second greatest variance on the second axis and so on. ” PCA có thể được dùng để giảm số chiều bằng cách loại bỏ những thành phần chính không quan trọng.
- Principal component analysis (PCA) loại bỏ sự tương quan này bằng cách xoay trục (cơ sở) Ví dụ: dữ liệu trên trục mới đã giảm sự tương quan đáng kể (biến Y1 và Y2 gần như không tương quan) sự thay đổi của dữ liệu phụ thuộc phần lớn vào biến Y1 giảm số chiều dữ liệu mà không làm giàm quá nhiều “phương sai” của dữ liệu khi thực hiện các phân tích đa biến mà trong đó các biến có tương quan với nhau gây nhiều khó khăn
- Principal component analysis (PCA) Note: Giúp giảm số chiều của dữ liệu; Thay vì giữ lại các trục tọa độ của không gian cũ, PCA xây dựng một không gian mới ít chiều hơn, nhưng lại có khả năng biểu diễn dữ liệu tốt tương đương không gian cũ.
- Principal component analysis (PCA) Ví dụ: Khám phá liên kết tiềm ẩn nhờ đổi hệ trục tọa độ, cách nhìn khác nhau về cùng một dữ liệu.
- Principal component analysis (PCA) Ví dụ: Notice that "the maximum variance" and "the minimum error" are reached at the same time, namely when the line points to the magenta ticks
- Principal component analysis (PCA) How to find the optimal linear transformation A ( where y = Ax) -1. Origin of PCA coordinate mean of samples -2. Maximize projected variance -3. Minimize projection cost min x − y
- Principal component analysis (PCA) https://hadrienj.github.io/posts/Deep-Learning-Book-Series-2.12-Example-Principal-Components- Analysis/
- Principal component analysis (PCA) Note: The eigenvectors of the covariance matrix define a new coordinate system Eigenvector with largest eigenvalue captures the most variation among training vectors x eigenvector with smallest eigenvalue has least variation The eigenvectors are known as principal components https://hadrienj.github.io/posts/Deep-Learning-Book-Series-2.12-Example-Principal-Components-Analysis/
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 7 - ĐH Bách khoa TP.HCM
22 p | 214 | 26
-
Bài giảng Khai phá dữ liệu trong kinh doanh - ĐH Thương Mại
0 p | 488 | 22
-
Bài giảng Khai phá dữ liệu - Trường ĐH Hàng Hải
73 p | 115 | 22
-
Bài giảng Khai phá dữ liệu - Chương 1: Tổng quan về khai phá dữ liệu
61 p | 155 | 16
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 0: Giới thiệu môn học
8 p | 127 | 14
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 8 - ĐH Bách khoa TP.HCM
8 p | 111 | 13
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 1 - Lê Tiến
61 p | 91 | 9
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 0 - Lê Tiến
7 p | 109 | 9
-
Bài giảng Khai phá dữ liệu web: Giới thiệu môn học
13 p | 104 | 9
-
Bài giảng Khai phá dữ liệu: Chương 8 - TS. Võ Thị Ngọc Châu
23 p | 80 | 8
-
Bài giảng Khai phá dữ liệu: Chương 1 - TS. Võ Thị Ngọc Châu
63 p | 106 | 8
-
Bài giảng Khai phá dữ liệu: Bài 1 - Văn Thế Thành
7 p | 88 | 5
-
Bài giảng Khai phá dữ liệu - Chương 1: Tổng quan
14 p | 143 | 4
-
Bài giảng Khai phá dữ liệu: Bài 0 - TS. Trần Mạnh Tuấn
10 p | 61 | 4
-
Bài giảng Khai phá dữ liệu: Bài 1 - TS. Trần Mạnh Tuấn
34 p | 67 | 4
-
Bài giảng Khai phá dữ liệu: Bài 2 - TS. Trần Mạnh Tuấn
32 p | 52 | 4
-
Bài giảng Khai phá dữ liệu: Chương 1 - Trường ĐH Phan Thiết
71 p | 41 | 4
-
Bài giảng Khai phá dữ liệu: Chương 4 - Trường ĐH Phan Thiết
70 p | 27 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn