Bài giảng Khai phá dữ liệu (Data mining): Introduction - Trịnh Tấn Đạt
lượt xem 5
download
Bài giảng Khai phá dữ liệu (Data mining): Introduction, chương này trình bày những nội dung về: giới thiệu môn học, tài liệu tham khảo, hình thức đánh giá; danh sách các đề tài - đồ án môn học; các vấn đề trong data mining;... Mời các bạn cùng tham khảo chi tiết nội dung bài giảng!
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Khai phá dữ liệu (Data mining): Introduction - Trịnh Tấn Đạt
- Trịnh Tấn Đạt Khoa CNTT – Đại Học Sài Gòn Email: trinhtandat@sgu.edu.vn Website: https://sites.google.com/site/ttdat88/ 1
- Nội dung Giới thiệu môn học Các nội dung Tài liệu tham khảo Hình thức đánh giá Danh sách các đề tài – đồ án môn học Các vấn đề trong data mining Trao đổi và thảo luận 2
- Giới Thiệu Môn Học Khai phá dữ liệu (data mining) 3 tín chỉ Mục tiêu: Cung cấp cho sinh viên các nguyên lý, các khái niệm, và các kỹ thuật căn bản và nền tảng trong khai phá dữ liệu Giới thiệu cho sinh viên những hiểu biết nhất định về các chủ đề khai phá dữ liệu mới mẻ và hiện đại cũng như các xu hướng của lĩnh vực. Cung cấp nền tảng tốt về suy luận thống kê và cấu trúc toán học cần thiết để phục vụ cho công việc nghiên cứu khoa học. Kỹ năng thực hành, thiết kế mô phỏng thực nghiệm. Thái độ học tập chăm chỉ, nghiêm túc và sáng tạo. 3
- Các Nội Dung Giới thiệu về khai phá dữ liệu và các vấn đề liên quan Tiền xử lý dữ liệu (preprocessing) Hồi quy dữ liệu (regression) Các phương pháp phân lớp (classification): Naïve Bayes Classifier, Neural Network, SVM, Boosting… Các phương pháp phân cụm (clustering): Kmeans, Phân cụm đa cấp, … Luật kết hợp (association rules) Đồ án môn học – seminar nhóm 4
- Tài liệu tham khảo Slide giảng viên cung cấp Jiawei Han, Micheline Kamber, and Jian Pei, Data Mining: Concepts and Techniques, 3rd edition, Morgan Kaufmann Publishers, 2011 Ian H. Witten and Eibe Frank, Data Mining – Practical Machine Learning Tools and Techniques, 2nd edition, Morgan Kaufmann Publishers, 2005 Richard O. Duda, Peter E. Hart, and David G. Stork, Pattern Classification, Wiley,2000. Các nguồn khác trên internet Google Kaggle … 5
- Hình thức đánh giá Điểm quá trình: Chuyên cần: 10% Báo cáo đề tài: 40% Soạn slide báo cáo. Thuyết trình giảng bài trước lớp. (20 phút đến 30 phút). Chương trình demo mô phỏng ứng dụng của phương pháp/thuật toán trình bày. Báo cáo cuối kỳ: 50% . Báo cáo trình bày theo mẫu nghiên cứu khoa học/ khóa luận tốt nghiệp Báo cáo yêu cầu ít nhất 30 trang Có tài liệu tham khảo và trích dẫn (ít nhất 15 tài liệu tham khảo) Trình bày chi tiết cơ sở lý thuyết của thuật toán/ phương pháp lựa chọn. ❖ Điểm thưởng (+): phát biểu, giải bài tập, đặt câu hỏi cho nhóm thuyết trình, ... 6
- Danh sách chủ đề báo cáo ❖ Sinh viên đăng ký làm đề tài theo nhóm (mỗi nhóm tối đa 3 sinh viên): 1. K-Nearest Neighbors 2. Decision Tree (C4.5, CART, …) 3. Clustering (K-means, Spectral clustering, hierarchical clustering, DBSCAN, …) 4. Support vector machines (SVM) 5. Boosting algorithm: thuật toán AdaBoost 6. Association rules: thuật toán Apriori 7. Expectation–Maximization algorithm 8. Naïve Bayes Classifier 9. Neural Network 10. Rough set theory (Lý thuyết tập thô) 7
- Các ứng dụng ▪ Trích chọn thông tin ▪ Phân tích chủ đề và ứng dụng ▪ Phân tích liên kết và tìm kiếm trên Web ▪ Quảng cáo trực tuyến ▪ Phân tích quan điểm ▪ Các hệ thống gợi ý ▪ Phân tích mạng xã hội ▪ Dữ liệu lớn và Khai phá dữ liệu quy mô lớn ▪ Phân tích và dự báo với dữ liệu kinh tế tài chính ▪ Đấu giá và thị trường ▪ … 8
- Các Vấn Đề Trong Data Mining ❖ Data Mining là gì? • Quá trình trích xuất tri thức từ lượng lớn dữ liệu. • Quá trình trích xuất thông tin ẩn, hữu ích, chưa được biết trước từ dữ liệu. 9
- Các Vấn Đề Trong Data Mining Các ứng dụng: Prediction Tid Refund Marital Taxable Status Income Cheat 1 Yes Single 125K No Refund Marital Taxable Status Income Cheat 2 No Married 100K No 3 No Single 70K No No Single 75K ? 4 Yes Married 120K No Yes Married 50K ? 5 No Divorced 95K Yes No Married 150K ? 6 No Married 60K No Yes Divorced 90K ? 7 Yes Divorced 220K No No Single 40K ? 8 No Single 85K Yes No Married 80K ? 10 9 No Married 75K No 10 No Single 90K Yes 10 10
- Các Vấn Đề Trong Data Mining Các ứng dụng: Biometric recognition – face, fingerprint, iris, gait, … 11
- Các Vấn Đề Trong Data Mining Các ứng dụng : Recommender system 12
- Các Vấn Đề Trong Data Mining Các ứng dụng : Sentiment Analysis 13
- Các Vấn Đề Trong Data Mining Các ứng dụng : Credit scoring 14
- Các Vấn Đề Trong Data Mining Quá trình khám phá tri thức Pattern Evaluation Data Mining Task-relevant Data Data Warehouse Selection Data Cleaning Data Integration Databases 15
- Các Vấn Đề Trong Data Mining ❖ Quá trình khám phá tri thức là một chuỗi lặp gồm các bước: Data cleaning (làm sạch dữ liệu) Data integration (tích hợp dữ liệu) Data selection (chọn lựa dữ liệu) Data transformation (biến đổi dữ liệu) Data mining (khai phá dữ liệu) Pattern evaluation (đánh giá mẫu) Knowledge presentation (biểu diễn tri thức) 16
- Các Vấn Đề Trong Data Mining ❖ Quá trình khám phá tri thức là một chuỗi lặp gồm các bước được thực thi với: Data sources (các nguồn dữ liệu) Data warehouse (kho dữ liệu) Task-relevant data (dữ liệu cụ thể sẽ được khai phá) Patterns (mẫu kết quả từ khai phá dữ liệu) Knowledge (tri thức đạt được) 17
- 18
- Các Vấn Đề Trong Data Mining Lượng lớn dữ liệu sẵn có để khai phá Bất kỳ loại dữ liệu được lưu trữ hay tạm thời, có cấu trúc hay bán cấu trúc hay phi cấu trúc Dữ liệu được lưu trữ Các tập tin truyền thống (flat files) Các cơ sở dữ liệu giao tác (transactional databases) hay kho dữliệu (data warehouses) Các cơ sở dữ liệu hướng ứng dụng: cơ sở dữ liệu chuỗi thời gian (time series databases), cơ sở dữ liệu văn bản (text databases), cơ sở dữ liệu đa phương tiện (multimedia databases), … Các kho thông tin: the World Wide Web, … Dữ liệu tạm thời: các dòng dữ liệu (data streams) 19
- Các Vấn Đề Trong Data Mining Database Technology Statistics Machine Visualization Data Mining Learning Pattern Recognition Other Algorithm Disciplines 20
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 7 - ĐH Bách khoa TP.HCM
22 p | 215 | 26
-
Bài giảng Khai phá dữ liệu trong kinh doanh - ĐH Thương Mại
0 p | 494 | 22
-
Bài giảng Khai phá dữ liệu - Chương 1: Tổng quan về khai phá dữ liệu
61 p | 157 | 16
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 0: Giới thiệu môn học
8 p | 127 | 14
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 8 - ĐH Bách khoa TP.HCM
8 p | 119 | 13
-
Bài giảng Khai phá dữ liệu web: Giới thiệu môn học
13 p | 112 | 9
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 1 - Lê Tiến
61 p | 93 | 9
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 0 - Lê Tiến
7 p | 110 | 9
-
Bài giảng Khai phá dữ liệu: Chương 8 - TS. Võ Thị Ngọc Châu
23 p | 80 | 8
-
Bài giảng Khai phá dữ liệu: Chương 1 - TS. Võ Thị Ngọc Châu
63 p | 108 | 8
-
Bài giảng Khai phá dữ liệu: Chương 7 - TS. Võ Thị Ngọc Châu
40 p | 93 | 7
-
Bài giảng Khai phá dữ liệu: Bài 1 - Văn Thế Thành
7 p | 90 | 5
-
Bài giảng Khai phá dữ liệu: Chương 1 - Trường ĐH Phan Thiết
71 p | 41 | 4
-
Bài giảng Khai phá dữ liệu: Bài 2 - TS. Trần Mạnh Tuấn
32 p | 55 | 4
-
Bài giảng Khai phá dữ liệu: Bài 1 - TS. Trần Mạnh Tuấn
34 p | 69 | 4
-
Bài giảng Khai phá dữ liệu: Bài 0 - TS. Trần Mạnh Tuấn
10 p | 63 | 4
-
Bài giảng Khai phá dữ liệu - Chương 1: Tổng quan
14 p | 149 | 4
-
Bài giảng Khai phá dữ liệu: Chương 4 - Trường ĐH Phan Thiết
70 p | 27 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn