
TIỀN XỬ LÝ DỮ LIỆU
ThS. Dương Phi Long –Email: longdp@uit.edu.vn
Chương 2:
TRƯỜNG ÐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THỐNG THÔNG TIN
Tài liệu bài giảng:
KHAI THÁC DỮ LIỆU –IS252

01
02
03
04
05
2
NỘI DUNG BÀI HỌC
Giớithiệu
Làmsạch dữliệu(Data cleaning)
Tích hợp dữ liệu (Data integration)
Rút gọn dữ liệu (Data reduction)
Biến đổi, mã hóa dữ liệu (Data transformation)

3
Giớithiệu
1. Cácdạng bộdữliệu
2. Đốitượng dữliệu
3. Thuộctính
4. Thu thậpdữliệu
5. Chấtlượng củadữliệu
6. Tiềnxửlýdữliệu
7. Cáckỹthuật tiềnxửlýdữliệu

4
Dữliệu
Data
15
Un-structured
texts in websites, emails, articles, tweets 2D/3D images, videos + meta spectrograms, DNAs, …
Structured –relational (table-like)
Data
15
Un-structured
texts in websites, emails, articles, tweets 2D/3D images, videos + meta spectrograms, DNAs, …
Structured –relational (table-like)

5
1. Cácdạng bộdữliệu(Type of Data sets)
-Record
•Relational records
•Data matrix:numerical matrix,
crosstabs
•Document data:text documents
term-frequency vector
•Transaction data
-Graph and network
•World Wide Web
•Social or information networks
•Molecular Structures
a) Record
b) Data matrix
c) Transaction data
d) Document-term matrix