intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Khai phá dữ liệu (Data mining): Introduction - Trịnh Tấn Đạt

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:26

15
lượt xem
5
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng Khai phá dữ liệu (Data mining): Introduction, chương này trình bày những nội dung về: giới thiệu môn học, tài liệu tham khảo, hình thức đánh giá; danh sách các đề tài - đồ án môn học; các vấn đề trong data mining;... Mời các bạn cùng tham khảo chi tiết nội dung bài giảng!

Chủ đề:
Lưu

Nội dung Text: Bài giảng Khai phá dữ liệu (Data mining): Introduction - Trịnh Tấn Đạt

  1. Trịnh Tấn Đạt Khoa CNTT – Đại Học Sài Gòn Email: trinhtandat@sgu.edu.vn Website: https://sites.google.com/site/ttdat88/ 1
  2. Nội dung  Giới thiệu môn học  Các nội dung  Tài liệu tham khảo  Hình thức đánh giá  Danh sách các đề tài – đồ án môn học  Các vấn đề trong data mining  Trao đổi và thảo luận 2
  3. Giới Thiệu Môn Học  Khai phá dữ liệu (data mining)  3 tín chỉ  Mục tiêu:  Cung cấp cho sinh viên các nguyên lý, các khái niệm, và các kỹ thuật căn bản và nền tảng trong khai phá dữ liệu  Giới thiệu cho sinh viên những hiểu biết nhất định về các chủ đề khai phá dữ liệu mới mẻ và hiện đại cũng như các xu hướng của lĩnh vực.  Cung cấp nền tảng tốt về suy luận thống kê và cấu trúc toán học cần thiết để phục vụ cho công việc nghiên cứu khoa học.  Kỹ năng thực hành, thiết kế mô phỏng thực nghiệm.  Thái độ học tập chăm chỉ, nghiêm túc và sáng tạo. 3
  4. Các Nội Dung  Giới thiệu về khai phá dữ liệu và các vấn đề liên quan  Tiền xử lý dữ liệu (preprocessing)  Hồi quy dữ liệu (regression)  Các phương pháp phân lớp (classification): Naïve Bayes Classifier, Neural Network, SVM, Boosting…  Các phương pháp phân cụm (clustering): Kmeans, Phân cụm đa cấp, …  Luật kết hợp (association rules)  Đồ án môn học – seminar nhóm 4
  5. Tài liệu tham khảo  Slide giảng viên cung cấp  Jiawei Han, Micheline Kamber, and Jian Pei, Data Mining: Concepts and Techniques, 3rd edition, Morgan Kaufmann Publishers, 2011  Ian H. Witten and Eibe Frank, Data Mining – Practical Machine Learning Tools and Techniques, 2nd edition, Morgan Kaufmann Publishers, 2005  Richard O. Duda, Peter E. Hart, and David G. Stork, Pattern Classification, Wiley,2000.  Các nguồn khác trên internet  Google  Kaggle  … 5
  6. Hình thức đánh giá  Điểm quá trình:  Chuyên cần: 10%  Báo cáo đề tài: 40%  Soạn slide báo cáo.  Thuyết trình giảng bài trước lớp. (20 phút đến 30 phút).  Chương trình demo mô phỏng ứng dụng của phương pháp/thuật toán trình bày.  Báo cáo cuối kỳ: 50% .  Báo cáo trình bày theo mẫu nghiên cứu khoa học/ khóa luận tốt nghiệp  Báo cáo yêu cầu ít nhất 30 trang  Có tài liệu tham khảo và trích dẫn (ít nhất 15 tài liệu tham khảo)  Trình bày chi tiết cơ sở lý thuyết của thuật toán/ phương pháp lựa chọn. ❖ Điểm thưởng (+): phát biểu, giải bài tập, đặt câu hỏi cho nhóm thuyết trình, ... 6
  7. Danh sách chủ đề báo cáo ❖ Sinh viên đăng ký làm đề tài theo nhóm (mỗi nhóm tối đa 3 sinh viên): 1. K-Nearest Neighbors 2. Decision Tree (C4.5, CART, …) 3. Clustering (K-means, Spectral clustering, hierarchical clustering, DBSCAN, …) 4. Support vector machines (SVM) 5. Boosting algorithm: thuật toán AdaBoost 6. Association rules: thuật toán Apriori 7. Expectation–Maximization algorithm 8. Naïve Bayes Classifier 9. Neural Network 10. Rough set theory (Lý thuyết tập thô) 7
  8. Các ứng dụng ▪ Trích chọn thông tin ▪ Phân tích chủ đề và ứng dụng ▪ Phân tích liên kết và tìm kiếm trên Web ▪ Quảng cáo trực tuyến ▪ Phân tích quan điểm ▪ Các hệ thống gợi ý ▪ Phân tích mạng xã hội ▪ Dữ liệu lớn và Khai phá dữ liệu quy mô lớn ▪ Phân tích và dự báo với dữ liệu kinh tế tài chính ▪ Đấu giá và thị trường ▪ … 8
  9. Các Vấn Đề Trong Data Mining ❖ Data Mining là gì? • Quá trình trích xuất tri thức từ lượng lớn dữ liệu. • Quá trình trích xuất thông tin ẩn, hữu ích, chưa được biết trước từ dữ liệu. 9
  10. Các Vấn Đề Trong Data Mining  Các ứng dụng: Prediction Tid Refund Marital Taxable Status Income Cheat 1 Yes Single 125K No Refund Marital Taxable Status Income Cheat 2 No Married 100K No 3 No Single 70K No No Single 75K ? 4 Yes Married 120K No Yes Married 50K ? 5 No Divorced 95K Yes No Married 150K ? 6 No Married 60K No Yes Divorced 90K ? 7 Yes Divorced 220K No No Single 40K ? 8 No Single 85K Yes No Married 80K ? 10 9 No Married 75K No 10 No Single 90K Yes 10 10
  11. Các Vấn Đề Trong Data Mining  Các ứng dụng: Biometric recognition – face, fingerprint, iris, gait, … 11
  12. Các Vấn Đề Trong Data Mining  Các ứng dụng : Recommender system 12
  13. Các Vấn Đề Trong Data Mining  Các ứng dụng : Sentiment Analysis 13
  14. Các Vấn Đề Trong Data Mining  Các ứng dụng : Credit scoring 14
  15. Các Vấn Đề Trong Data Mining  Quá trình khám phá tri thức Pattern Evaluation Data Mining Task-relevant Data Data Warehouse Selection Data Cleaning Data Integration Databases 15
  16. Các Vấn Đề Trong Data Mining ❖ Quá trình khám phá tri thức là một chuỗi lặp gồm các bước:  Data cleaning (làm sạch dữ liệu)  Data integration (tích hợp dữ liệu)  Data selection (chọn lựa dữ liệu)  Data transformation (biến đổi dữ liệu)  Data mining (khai phá dữ liệu)  Pattern evaluation (đánh giá mẫu)  Knowledge presentation (biểu diễn tri thức) 16
  17. Các Vấn Đề Trong Data Mining ❖ Quá trình khám phá tri thức là một chuỗi lặp gồm các bước được thực thi với:  Data sources (các nguồn dữ liệu)  Data warehouse (kho dữ liệu)  Task-relevant data (dữ liệu cụ thể sẽ được khai phá)  Patterns (mẫu kết quả từ khai phá dữ liệu)  Knowledge (tri thức đạt được) 17
  18. 18
  19. Các Vấn Đề Trong Data Mining  Lượng lớn dữ liệu sẵn có để khai phá  Bất kỳ loại dữ liệu được lưu trữ hay tạm thời, có cấu trúc hay bán cấu trúc hay phi cấu trúc  Dữ liệu được lưu trữ  Các tập tin truyền thống (flat files)  Các cơ sở dữ liệu giao tác (transactional databases) hay kho dữliệu (data warehouses)  Các cơ sở dữ liệu hướng ứng dụng: cơ sở dữ liệu chuỗi thời gian (time series databases), cơ sở dữ liệu văn bản (text databases), cơ sở dữ liệu đa phương tiện (multimedia databases), …  Các kho thông tin: the World Wide Web, …  Dữ liệu tạm thời: các dòng dữ liệu (data streams) 19
  20. Các Vấn Đề Trong Data Mining Database Technology Statistics Machine Visualization Data Mining Learning Pattern Recognition Other Algorithm Disciplines 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2