intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

DATA MINING AND APPLICATION: TỔNG QUAN

Chia sẻ: Abcdef_14 Abcdef_14 | Ngày: | Loại File: PDF | Số trang:13

115
lượt xem
28
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Sự quan tâm đến kiến thức, vấn đề mới. Cung cấp các khái niệm và kỹ thuật cơ bản của khai thác dữ liệu (DM)  Chuyển dữ liệu về dạng phù hợp  Tìm tri thức từ dữ liệu  Biểu diễn, đánh giá tri thức  Ứng dụng của DM Các kỹ năng giải quyết vấn đề

Chủ đề:
Lưu

Nội dung Text: DATA MINING AND APPLICATION: TỔNG QUAN

  1. KHAI THÁC DỮ LIỆU & ỨNG DỤNG (DATA MINING) GV : ThS. NGUYỄN HOÀNG TÚ ANH NỘI DUNG  Giới thiệu về môn học  Giới thiệu về khai thác dữ liệu (DM) 2 1
  2. GIỚI THIỆU MÔN HỌC Tai sao chọn môn học này ?  Thế mạnh và nền tảng kiến thức :  TTNT, hệ QTCSDL, thống kê, kinh tế,…  Sự quan tâm đến kiến thức, vấn đề mới.  Mục tiêu môn học :  Cung cấp các khái niệm và kỹ thuật cơ bản của  khai thác dữ liệu (DM)  Chuyển dữ liệu về dạng phù hợp  Tìm tri thức từ dữ liệu  Biểu diễn, đánh giá tri thức  Ứng dụng của DM Các kỹ năng giải quyết vấn đề 3  Thông tin liên lạc Giảng viên lý thuyết :   Th.s. Nguyễn Hoàng Tú Anh nhtanh@fit.hcmus.edu.vn Tel : 38354266 – 803 Website môn học :  http://courses.cs.hcmus.edu.vn/  4 2
  3. CHƯƠNG TRÌNH 45 tiết lý thuyết và 30 tiết thực hành  Tổng quan  Chuẩn bị dữ liệu  Tập phổ biến và luật kết hợp  Bài toán phân lớp  Bài toán gom nhóm  Các nghiên cứu xa hơn 5 Hình thức học Lý thuyết:  Bài giảng : GV cung cấp slide theo tiến độ.  Bài tập theo nhóm và bài tập cá nhân.  Tìm hiểu, nghiên cứu tài liệu để báo cáo xemina Thực hành :  Hình thức 2  Sử dụng PM Weka  Cài đặt một số thuật toán 6 3
  4. HÌNH THỨC KIỂM TRA VÀ ĐÁNH GIÁ Hệ thống thang điểm:  Bài thi lý thuyết: 4.5 điểm  Bài tập theo nhóm và cá nhân: 1.5 điểm  1.5 điểm Báo cáo xemina:  Bài tập thực hành hằng tuần: 2.5 điểm  Điểm cộng cho phần TH: tối đa 1 điểm  7 HÌNH THỨC KIỂM TRA VÀ ĐÁNH GIÁ Thi lý thuyết: 4.5 điểm  Thi viết, đựơc sử dụng tài liệu, KHÔNG sử dụng laptop,  mang theo máy tính : thời gian 120’ Bài tập theo nhóm và cá nhân: 1.5 điểm  Bài tập làm theo nhóm và cá nhân trên lớp và qua Moodle.  Tối đa 4 SV/nhóm.  Hạn chót đăng ký nhóm qua Moodle: 15/09/2009  1.5 điểm Báo cáo xemina:  Thực hiện theo nhóm đã đăng ký bài tập nhóm  (4SV/nhóm). Các nhóm sẽ đăng ký nội dung xemina theo thông báo  trên website môn học. (trong tuần từ 21/9 -26/9) 8 4
  5. HÌNH THỨC KIỂM TRA VÀ ĐÁNH GIÁ Bài tập (theo nhóm và cá nhân): 1.5 điểm  Bài tập làm theo nhóm hoặc cá nhân trên lớp và qua  Moodle hằng tuần. Đánh giá sự tham gia lớp học và sự chuẩn bị bài  trong suốt quá trình học tập. Điểm bài tập sẽ đánh giá trên tất cả các bài tập  hằng tuần trên lớp và qua Moodle. Đối với các bài tập làm theo nhóm, trưởng  nhóm cần thống kê tỷ lệ đóng góp của từng thành viên trong nhóm. 9 HÌNH THỨC KIỂM TRA VÀ ĐÁNH GIÁ Bài tập (theo nhóm và cá nhân): 1.5 điểm  Đánh giá sự tham gia lớp học và sự chuẩn bị bài  trong suốt quá trình học tập. 30% - bài tập cá nhân trong giờ học và 70% là bài  tập theo nhóm. Để có thể đạt kết quả tốt, các SV cần xem trước bài  giảng để chuẩn bị. Các mức đánh giá:  A – Xuất sắc 100% số điểm  B - Đạt yêu cầu ~70% số điểm  C - Không đạt yêu cầu ~30% số điểm  F - Không làm hoặc giống bài của SV khác 0% số điểm  10 5
  6. HÌNH THỨC KIỂM TRA VÀ ĐÁNH GIÁ 1.5 điểm Báo cáo xemina:  Các nhóm sẽ đăng ký nội dung xemina theo  thông báo trên website môn học. (trong tuần từ 21/9 -26/9) Thứ tự báo cáo phụ thuộc vào nội dung các  nhóm đăng ký. Bắt đầu xemina từ tuần thứ 10. Trước buổi báo cáo, các nhóm phải gửi nội  dung trình bày (file.ppt) cho GV góp ý và post lên website để các nhóm khác tham khảo. 11 HÌNH THỨC KIỂM TRA VÀ ĐÁNH GIÁ 1.5 điểm Báo cáo xemina:  Các nhóm sẽ đăng ký nội dung xemina theo thông báo  trên website môn học. (trong tuần từ 21/9 -26/9) Điểm báo cáo xemina sẽ đánh giá trên nội dung trình  bày, trả lời câu hỏi tại buổi xemina, trên cả nội dung của báo cáo chi tiết và sự tham dự các buổi xemina. Trong tuần thứ 16, các nhóm sẽ post nội dung bản  báo cáo viết chi tiết (file .doc theo mẫu) lên website môn học. Trong bài thi viết lý thuyết cuối kỳ sẽ có 1 câu hỏi  liên quan đến các nội dung xemina. 12 6
  7. HÌNH THỨC KIỂM TRA VÀ ĐÁNH GIÁ Bài tập thực hành hằng tuần: 2.5 điểm  Bài tập làm theo nhóm. Một nhóm : 2 SV   Số lượng : 4 bài . Thời gian : 2 tuần/bài  Hạn chót đăng ký nhóm TH qua Moodle: 15/09/2009 Nội dung bài tập TH :  Sử dụng phần mềm Weka để giải quyết một số bài toán  trong nội dung lý thuyết : xử lý DL, khai thác luật kết hợp, phân lớp và gom nhóm . Có yêu cầu cài đặt một số thuật toán  Thời gian nộp qua website môn học theo thông báo của  13 GV HDTH. Câu hỏi và đề nghị ? Chia sẻ câu hỏi, thắc mắc với cả lớp – có  thể có những bạn khác cũng quan tâm. Bỏ vào càng nhiều công sức, các em sẽ đạt  được kết quả càng cao Điểm của các em tỷ lệ thuận với các nỗ  lực đã bỏ ra. 14 7
  8. TÀI LIỆU THAM KHẢO J.Han, M.Kamber, “Data mining : Concepts & Technique”  (ppt) – http://www.cs.sfu.ca/~han/dmbook P.Tan, M. Steinbach, V. Kumar, “Introduction to data  Mining”, 2006, - http://www- users.cs.umn.edu/~kumar/dmbook/index.php Phần mềm WEKA - http://www.cs.waikato.ac.nz/ml/weka/  Trang web đầu ngành về KTDL - Kdnuggets :  www.kdnuggets.com 15 NỘI DUNG  Giới thiệu về môn học  Giới thiệu về khai thác dữ liệu (DM) 16 8
  9. VÍ DỤ : Tập Dữ liệu age income student credit_rating buys_computer 40 low yes fair yes >40 low yes excellent no 31…40 low yes excellent yes
  10. Ví dụ ứng dụng Marketing Phân khúc thị trường : Ai mua sản phẩm  của công ty? Mục tiêu hướng khách hàng (customer  targeting): Làm thế nào để tăng số mail trả lời? Nên quảng cáo cái gì trên web site ? Những mặt hàng nào thường được khách  hàng mua cùng với nhau? Ví dụ ứng dụng Quản lý rủi ro -Risk Management Khách hàng nào có thể sẽ chuyển sang nhà  cung cấp dịch vụ khác? Khách hàng nào có mức độ rủi ro tín dụng tốt?  Giao dịch thẻ tín dụng nào bị lỗi hoặc gian  lận ? 10
  11. Ví dụ ứng dụng Có phải tế bào ung thư ?  Nếu đúng thì mức độ phát triển như thế nào ?  THẾ NÀO LÀ KHAI THÁC DL Tại sao cần Khai thác dữ liệu (KTDL)?  Những đối tượng nào sử dụng KTDL ?  Sử dụng KTDL ở đâu và khi nào?  Sử dụng KTDL như thế nào ?  Tại sao cần nghiên cứu KTDL?  Lịch sử phát triển KTDL ?  …. Xem bài 1 : Tổng quan. 22 11
  12. CÁC CÔNG VIỆC CẦN LÀM 1. Đăng nhập vào Moodle Để đăng ký tham gia vào lớp, thảo luận và lấy tài liệu  Hạn chót : 16/9/2009  Sau ngày 16/9/09, Website môn học sẽ khoá lại  Đăng ký nhóm 2. Hạn chót đăng ký nhóm cho bài tập nhóm /xemina  (4Sv/nhóm) và cho bài tập Thực hành (2Sv/nhóm) qua Moodle : 15/09/2009 Chuẩn bị sẵn BẢNG TÊN NHÓM và mang theo khi đến lớp  và tất cả các buổi học tiếp theo. 23 CÁC CÔNG VIỆC CẦN LÀM Chuẩn bị bài 1 : Tổng quan 3. Xem nội dung bài tập nhóm số 1  Thảo luận và xây dựng một ví dụ của khai thác dữ  liệu: nên chọn lựa một lĩnh vực nhỏ, một sản phẩm cụ thể. Cách thực hiện :  Đọc slide, xem các ví dụ  Tham khảo trên Internet các ví dụ về KTDL.  24 12
  13. 25 13
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
4=>1