intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Khai thác dữ liệu: Chương 2 - ThS. Dương Phi Long

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:94

1
lượt xem
0
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng "Khai thác dữ liệu: Chương 2 - Tiền xử lý dữ liệu" cung cấp cho sinh viên những kiến thức như: Làm sạch dữ liệu (Data cleaning); Tích hợp dữ liệu (Data integration); Rút gọn dữ liệu (Data reduction); Biến đổi, mã hóa dữ liệu (Data transformation). Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Bài giảng Khai thác dữ liệu: Chương 2 - ThS. Dương Phi Long

  1. TRƯỜNG ÐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA HỆ THỐNG THÔNG TIN Tài liệu bài giảng: KHAI THÁC DỮ LIỆU – IS252 Chương 2: TIỀN XỬ LÝ DỮ LIỆU ThS. Dương Phi Long – Email: longdp@uit.edu.vn
  2. NỘI DUNG BÀI HỌC 01 Giới thiệu 02 Làm sạch dữ liệu (Data cleaning) 03 Tích hợp dữ liệu (Data integration) 04 Rút gọn dữ liệu (Data reduction) 05 Biến đổi, mã hóa dữ liệu (Data transformation) 2
  3. 1. Các dạng bộ dữ liệu 2. Đối tượng dữ liệu 3. Thuộc tính Giới thiệu 4. Thu thập dữ liệu 5. Chất lượng của dữ liệu 6. Tiền xử lý dữ liệu 7. Các kỹ thuật tiền xử lý dữ liệu 3
  4. Data Data Dữ liệu Un-structured Structured – relational (table-like) Structured – relational (table-like) Un-structured texts in websites, emails, articles, tweets 2D/3D images, videos + meta spectrograms, DNAs, … texts in websites, emails, articles, tweets 2D/3D images, videos + meta spectrograms, DNAs, … 4
  5. 1. Các dạng bộ dữ liệu (Type of Data sets) - Record • Relational records • Data matrix: numerical matrix, crosstabs • Document data: text documents term-frequency vector a) Record c) Transaction data • Transaction data - Graph and network • World Wide Web • Social or information networks b) Data matrix d) Document-term matrix • Molecular Structures 5
  6. 1. Các dạng bộ dữ liệu (Type of Data sets) - Ordered • Video data: sequence of images • Temporal data: time-series • Sequential Data: transaction e) Genetic sequence data sequences • Genetic sequence data - Spatial, image and multimedia: • Spatial data: maps • Image data • Video data f) Image data 6
  7. 2. Đối tượng dữ liệu (Data object) - Data set được tạo thành từ các data object. - Một data object đại diện cho một thực thể (entity). - VD: • CSDL bán hàng: khách hàng, mặt hàng lưu trữ, bán hàng • CSDL dữ liệu y tế: bệnh nhân, phương pháp điều trị • CSDL trường đại học: sinh viên, giáo sư, khóa học - Còn được gọi là mẫu (sample, example), thể hiện (instance), điểm dữ liệu (data point), đối tượng (object), bộ giá trị (tuple). - Các data object được mô tả bởi các thuộc tính (attribute). - Row ~ data object; column ~ attribute 7
  8. 3. Thuộc tính (Attribute) - Attribute (hoặc dimension, feature, variable): đặc điểm hoặc đặc trưng của một data object. - VD: Customer_ID, Name, Address - Các loại thuộc tính: • Nominal • Binary • Ordinal • Numeric: quantitative § Interval-scaled § Ratio-scaled 8
  9. 3.1. Các loại thuộc tính - Nominal: danh mục, trạng thái hoặc “names of things” • VD: Màu tóc = {màu nâu vàng, đen, vàng, nâu, xám, đỏ, trắng} • Tình trạng hôn nhân, nghề nghiệp, số ID, zip code - Binary • Thuộc tính nominal chỉ có 2 trạng thái (0 và 1) • Nhị phân đối xứng (Symmetric binary): cả hai đều quan trọng như nhau. VD: giới tính • Nhị phân bất đối xứng (Asymmetric binary): không quan trọng như nhau. VD: kết quả xét nghiệm y tế (dương tính, âm tính) Quy ước (Convention): gán 1 cho kết quả quan trọng hơn. VD: dương tính với HIV 9
  10. 3.1. Các loại thuộc tính - Ordinal • Các giá trị có thứ tự có ý nghĩa (xếp hạng) nhưng độ lớn giữa các giá trị liên tiếp không được biết. • VD: Kích thước = {nhỏ, trung bình, lớn}, Điểm = {A, B, C, D, E, F}, cấp bậc, quân hàm. 10
  11. 3.1. Các loại thuộc tính - Numeric: định lượng, có thể đo được, giá trị nguyên hoặc thực. 2 loại: • Interval-scaled (Thuộc tính tỷ lệ khoảng thời gian) § Loại dữ liệu được đo theo thang đo, khoảng cách giữa hai điểm được chuẩn hóa và bằng nhau. Không có điểm 0 thực sự § Dữ liệu không thể nhân hoặc chia, nhưng có thể trừ hoặc cộng § VD: Độ C, Độ F, ngày trong tháng • Ratio-scaled (Thuộc tính tỷ lệ) § Có điểm 0 thực sự § Có thể nói một dữ liệu là bội (hoặc tỷ lệ) với một dữ liệu khác § VD: number_of_words, số lượng tiền tệ, độ dài, số năm kinh nghiệm 11
  12. 3.2. Thuộc tính rời rạc và Thuộc tính liên tục - Thuộc tính rời rạc (Discrete Attribute) • Chỉ có một tập giá trị hữu hạn hoặc vô hạn đếm được • VD: zip code, nghề nghiệp, tập hợp các từ trong bộ sưu tập tài liệu • Được biểu diễn dưới dạng số nguyên, số thực • Thuộc tính binary là trường hợp đặc biệt của thuộc tính rời rạc - Thuộc tính liên tục (Continuous Attribute) • Giá trị thuộc tính: số thực • VD: nhiệt độ, chiều cao hoặc cân nặng • Trên thực tế, các giá trị thực chỉ có thể được đo lường và biểu diễn bằng số lượng chữ số hữu hạn • Thường được biểu diễn dưới dạng các biến dấu phẩy động 12
  13. 4. Thu thập dữ liệu Input Output Vấn đề cần giải quyết Input Output Mẫu dữ liệu Vấn đề cần giải quyết Mẫu dữ liệu 13
  14. 4. Thu thập dữ liệu Nguyên tắc lấy mẫu (Sampling): - WHAT: Lấy tập mẫu phổ biến, đại diện cho lĩnh vực cần học, khai thác. - WHY: Không thể học, khai thác toàn bộ. Giới hạn về thời gian và khả năng tính toán. - HOW: Thu thập các mẫu từ thực tế, hoặc từ các nguồn chứa dữ liệu (web, database, …) 14
  15. 4. Thu thập dữ liệu Lấy mẫu như thế nào? - Variety: Tập thu được đủ đa dạng để phủ hết các ngữ cảnh, đặc trưng của lĩnh vực. - Bias: Dữ liệu cần tổng quát, cân bằng, không bị sai lệnh, thiên vị về 1 bộ phận nhỏ nào đó của lĩnh vực. 15
  16. Fundamentals :: Sampling mentals :: Sampling :: How 4. Thu thập dữ liệuVariety – các mẫu đủ đa ¡ – các mẫu đủ đa dạng để phản ánh khách ể phản ánh khách quan? Variety & Bias Dữ liệu đa dạng, cân bằng để phản ánh khách quan? Actual results https://projects.fivethirtyeight.com/2016-election-forecast/ htt http://edition.cnn.com/election/results/president Actual results Image credit: Wikipedia, FiveThirtyEight cts.fivethirtyeight.com/2016-election-forecast/ https://www.coursera.org/learn/inferential-statistics-intro n.cnn.com/election/results/president : Wikipedia, FiveThirtyEight 16
  17. 4. Thu thập dữ liệu Các kỹ thuật thu thập dữ liệu: - Crow-sourcing: Survey – các khảo sát. - Logging: Lưu lại lịch sử tương tác, truy cập của người dùng, … - Scrapping: Lưu lại dữ liệu từ các website 17
  18. 4. Thu thập dữ liệu 12 DEMO Ví dụ - Scrapping: - Mục tiêu: Dữ liệu cho bài toán phân lớp văn bản (dữ liệu báo chí). Output - Hướng giải quyết:Input Hệ thống thu thập (crawl) dữ liệu báo Vấn đề: phân loại văn bản Mẫu dữ liệu: báo chí và Input báo chí nhãn Output ứng tương Vấn đề: phân lớp văn bản báo chí Mẫu dữ liệu: Bài báo và nhãn tương ứng 18
  19. 5. Chất lượng của dữ liệu Các yếu tố đánh giá: - Tính chính xác (Accuracy): • Có các giá trị không chính xác • Có thể là lỗi của con người hoặc máy tính - Tính đầy đủ, toàn vẹn (Completeness): • Dữ liệu không đầy đủ có thể xảy ra • VD: thông tin khách hàng cho dữ liệu bán hàng & giao dịch có thể không phải lúc nào cũng có sẵn. 19
  20. 5. Chất lượng của dữ liệu Các yếu tố đánh giá: - Tính nhất quán (Consistency): • Có thể do quy ước đặt tên, đặt mã, định dạng không nhất quán • Các bộ dữ liệu trùng lặp. - Tính kịp thời (Currency/ Timeliness): Dữ liệu được cập nhật đầy đủ và kịp thời? - Độ tin cậy (Believability): Mức độ người dùng tin tưởng vào dữ liệu - Khả năng diễn giải (Interpretability): Mức độ dễ hiểu của người dùng đối với dữ liệu. 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
6=>0