
Bài giảng Khai thác dữ liệu: Chương 2 - ThS. Dương Phi Long
lượt xem 0
download

Bài giảng "Khai thác dữ liệu: Chương 2 - Tiền xử lý dữ liệu" cung cấp cho sinh viên những kiến thức như: Làm sạch dữ liệu (Data cleaning); Tích hợp dữ liệu (Data integration); Rút gọn dữ liệu (Data reduction); Biến đổi, mã hóa dữ liệu (Data transformation). Mời các bạn cùng tham khảo!
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Khai thác dữ liệu: Chương 2 - ThS. Dương Phi Long
- TRƯỜNG ÐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA HỆ THỐNG THÔNG TIN Tài liệu bài giảng: KHAI THÁC DỮ LIỆU – IS252 Chương 2: TIỀN XỬ LÝ DỮ LIỆU ThS. Dương Phi Long – Email: longdp@uit.edu.vn
- NỘI DUNG BÀI HỌC 01 Giới thiệu 02 Làm sạch dữ liệu (Data cleaning) 03 Tích hợp dữ liệu (Data integration) 04 Rút gọn dữ liệu (Data reduction) 05 Biến đổi, mã hóa dữ liệu (Data transformation) 2
- 1. Các dạng bộ dữ liệu 2. Đối tượng dữ liệu 3. Thuộc tính Giới thiệu 4. Thu thập dữ liệu 5. Chất lượng của dữ liệu 6. Tiền xử lý dữ liệu 7. Các kỹ thuật tiền xử lý dữ liệu 3
- Data Data Dữ liệu Un-structured Structured – relational (table-like) Structured – relational (table-like) Un-structured texts in websites, emails, articles, tweets 2D/3D images, videos + meta spectrograms, DNAs, … texts in websites, emails, articles, tweets 2D/3D images, videos + meta spectrograms, DNAs, … 4
- 1. Các dạng bộ dữ liệu (Type of Data sets) - Record • Relational records • Data matrix: numerical matrix, crosstabs • Document data: text documents term-frequency vector a) Record c) Transaction data • Transaction data - Graph and network • World Wide Web • Social or information networks b) Data matrix d) Document-term matrix • Molecular Structures 5
- 1. Các dạng bộ dữ liệu (Type of Data sets) - Ordered • Video data: sequence of images • Temporal data: time-series • Sequential Data: transaction e) Genetic sequence data sequences • Genetic sequence data - Spatial, image and multimedia: • Spatial data: maps • Image data • Video data f) Image data 6
- 2. Đối tượng dữ liệu (Data object) - Data set được tạo thành từ các data object. - Một data object đại diện cho một thực thể (entity). - VD: • CSDL bán hàng: khách hàng, mặt hàng lưu trữ, bán hàng • CSDL dữ liệu y tế: bệnh nhân, phương pháp điều trị • CSDL trường đại học: sinh viên, giáo sư, khóa học - Còn được gọi là mẫu (sample, example), thể hiện (instance), điểm dữ liệu (data point), đối tượng (object), bộ giá trị (tuple). - Các data object được mô tả bởi các thuộc tính (attribute). - Row ~ data object; column ~ attribute 7
- 3. Thuộc tính (Attribute) - Attribute (hoặc dimension, feature, variable): đặc điểm hoặc đặc trưng của một data object. - VD: Customer_ID, Name, Address - Các loại thuộc tính: • Nominal • Binary • Ordinal • Numeric: quantitative § Interval-scaled § Ratio-scaled 8
- 3.1. Các loại thuộc tính - Nominal: danh mục, trạng thái hoặc “names of things” • VD: Màu tóc = {màu nâu vàng, đen, vàng, nâu, xám, đỏ, trắng} • Tình trạng hôn nhân, nghề nghiệp, số ID, zip code - Binary • Thuộc tính nominal chỉ có 2 trạng thái (0 và 1) • Nhị phân đối xứng (Symmetric binary): cả hai đều quan trọng như nhau. VD: giới tính • Nhị phân bất đối xứng (Asymmetric binary): không quan trọng như nhau. VD: kết quả xét nghiệm y tế (dương tính, âm tính) Quy ước (Convention): gán 1 cho kết quả quan trọng hơn. VD: dương tính với HIV 9
- 3.1. Các loại thuộc tính - Ordinal • Các giá trị có thứ tự có ý nghĩa (xếp hạng) nhưng độ lớn giữa các giá trị liên tiếp không được biết. • VD: Kích thước = {nhỏ, trung bình, lớn}, Điểm = {A, B, C, D, E, F}, cấp bậc, quân hàm. 10
- 3.1. Các loại thuộc tính - Numeric: định lượng, có thể đo được, giá trị nguyên hoặc thực. 2 loại: • Interval-scaled (Thuộc tính tỷ lệ khoảng thời gian) § Loại dữ liệu được đo theo thang đo, khoảng cách giữa hai điểm được chuẩn hóa và bằng nhau. Không có điểm 0 thực sự § Dữ liệu không thể nhân hoặc chia, nhưng có thể trừ hoặc cộng § VD: Độ C, Độ F, ngày trong tháng • Ratio-scaled (Thuộc tính tỷ lệ) § Có điểm 0 thực sự § Có thể nói một dữ liệu là bội (hoặc tỷ lệ) với một dữ liệu khác § VD: number_of_words, số lượng tiền tệ, độ dài, số năm kinh nghiệm 11
- 3.2. Thuộc tính rời rạc và Thuộc tính liên tục - Thuộc tính rời rạc (Discrete Attribute) • Chỉ có một tập giá trị hữu hạn hoặc vô hạn đếm được • VD: zip code, nghề nghiệp, tập hợp các từ trong bộ sưu tập tài liệu • Được biểu diễn dưới dạng số nguyên, số thực • Thuộc tính binary là trường hợp đặc biệt của thuộc tính rời rạc - Thuộc tính liên tục (Continuous Attribute) • Giá trị thuộc tính: số thực • VD: nhiệt độ, chiều cao hoặc cân nặng • Trên thực tế, các giá trị thực chỉ có thể được đo lường và biểu diễn bằng số lượng chữ số hữu hạn • Thường được biểu diễn dưới dạng các biến dấu phẩy động 12
- 4. Thu thập dữ liệu Input Output Vấn đề cần giải quyết Input Output Mẫu dữ liệu Vấn đề cần giải quyết Mẫu dữ liệu 13
- 4. Thu thập dữ liệu Nguyên tắc lấy mẫu (Sampling): - WHAT: Lấy tập mẫu phổ biến, đại diện cho lĩnh vực cần học, khai thác. - WHY: Không thể học, khai thác toàn bộ. Giới hạn về thời gian và khả năng tính toán. - HOW: Thu thập các mẫu từ thực tế, hoặc từ các nguồn chứa dữ liệu (web, database, …) 14
- 4. Thu thập dữ liệu Lấy mẫu như thế nào? - Variety: Tập thu được đủ đa dạng để phủ hết các ngữ cảnh, đặc trưng của lĩnh vực. - Bias: Dữ liệu cần tổng quát, cân bằng, không bị sai lệnh, thiên vị về 1 bộ phận nhỏ nào đó của lĩnh vực. 15
- Fundamentals :: Sampling mentals :: Sampling :: How 4. Thu thập dữ liệuVariety – các mẫu đủ đa ¡ – các mẫu đủ đa dạng để phản ánh khách ể phản ánh khách quan? Variety & Bias Dữ liệu đa dạng, cân bằng để phản ánh khách quan? Actual results https://projects.fivethirtyeight.com/2016-election-forecast/ htt http://edition.cnn.com/election/results/president Actual results Image credit: Wikipedia, FiveThirtyEight cts.fivethirtyeight.com/2016-election-forecast/ https://www.coursera.org/learn/inferential-statistics-intro n.cnn.com/election/results/president : Wikipedia, FiveThirtyEight 16
- 4. Thu thập dữ liệu Các kỹ thuật thu thập dữ liệu: - Crow-sourcing: Survey – các khảo sát. - Logging: Lưu lại lịch sử tương tác, truy cập của người dùng, … - Scrapping: Lưu lại dữ liệu từ các website 17
- 4. Thu thập dữ liệu 12 DEMO Ví dụ - Scrapping: - Mục tiêu: Dữ liệu cho bài toán phân lớp văn bản (dữ liệu báo chí). Output - Hướng giải quyết:Input Hệ thống thu thập (crawl) dữ liệu báo Vấn đề: phân loại văn bản Mẫu dữ liệu: báo chí và Input báo chí nhãn Output ứng tương Vấn đề: phân lớp văn bản báo chí Mẫu dữ liệu: Bài báo và nhãn tương ứng 18
- 5. Chất lượng của dữ liệu Các yếu tố đánh giá: - Tính chính xác (Accuracy): • Có các giá trị không chính xác • Có thể là lỗi của con người hoặc máy tính - Tính đầy đủ, toàn vẹn (Completeness): • Dữ liệu không đầy đủ có thể xảy ra • VD: thông tin khách hàng cho dữ liệu bán hàng & giao dịch có thể không phải lúc nào cũng có sẵn. 19
- 5. Chất lượng của dữ liệu Các yếu tố đánh giá: - Tính nhất quán (Consistency): • Có thể do quy ước đặt tên, đặt mã, định dạng không nhất quán • Các bộ dữ liệu trùng lặp. - Tính kịp thời (Currency/ Timeliness): Dữ liệu được cập nhật đầy đủ và kịp thời? - Độ tin cậy (Believability): Mức độ người dùng tin tưởng vào dữ liệu - Khả năng diễn giải (Interpretability): Mức độ dễ hiểu của người dùng đối với dữ liệu. 20

CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Khai phá dữ liệu web (PGS.TS. Hà Quang Thụy) - Chương 7. Phân lớp web
67 p |
255 |
89
-
Bài giảng Cơ Sở Dữ Liệu - ĐH Công Nghệ Thông Tin
228 p |
221 |
85
-
Bài giảng Cơ sở dữ liệu đất đai
49 p |
701 |
80
-
DATA MINING AND APPLICATION: TỔNG HỢP MỘT SỐ VÍ DỤ ỨNG DỤNG
3 p |
442 |
71
-
Bài giảng Cơ sở dữ liệu - Hồ Cẩm Hà
163 p |
307 |
35
-
DATA MINING AND APPLICATION: TỔNG QUAN
13 p |
118 |
28
-
Bài giảng tin học ứng dụng: Chương II - Cơ sở dữ liệu
29 p |
199 |
26
-
Bài giảng Tin học nâng cao - ThS. Nguyễn Thanh Trường
57 p |
150 |
17
-
Bài giảng Khai thác dữ liệu & ứng dụng (data mining) - Bài 4: Khai thác chuỗi tuần tự - Nguyễn Hoàng Tú Oanh
18 p |
277 |
14
-
Bài giảng - Bài 2: Hệ quản trị cơ sở dữ liệu
12 p |
93 |
11
-
Bài giảng Hệ quản trị cơ sở dữ liệu: Chương 2 - ĐH Công nghiệp Thực phẩm
142 p |
79 |
8
-
Bài giảng Tin học ứng dụng: Chương 2 - ThS. Hoàng Hải Xanh
93 p |
18 |
5
-
Bài giảng Quản trị cơ sở dữ liệu - Chương 4: Tổ chức khai thác và quản trị cơ sở dữ liệu trong doanh nghiệp
5 p |
23 |
5
-
Bài giảng Công tác triển khai truyền nhận, quản trị hệ thống, kiểm duyệt dữ liệu khai thác và công bố thông tin
37 p |
43 |
5
-
Bài giảng Các hệ quản trị CSDL: Chương 4 - ĐH Sư phạm TP. HCM
66 p |
75 |
4
-
Bài giảng Hệ quản trị cơ sở dữ liệu: Chương 2 - Nguyễn Thị Uyên Nhi
88 p |
59 |
3
-
Đề cương chi tiết học phần Khai thác dữ liệu (Data mining)
7 p |
57 |
3
-
Bài giảng Lưu trữ và xử lý dữ liệu lớn: Chương 1 - Tổng quan về lưu trữ và xử lý dữ liệu lớn
43 p |
22 |
2


Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn
