intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Khai phá dữ liệu web: Giới thiệu môn học

Chia sẻ: Codon_02 Codon_02 | Ngày: | Loại File: PPT | Số trang:13

108
lượt xem
9
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng khai phá dữ liệu web: Giới thiệu môn học sẽ giới thiệu tới các bạn về vấn đề khai phá Text và khai phá Web: khái niệm, đặc trưng và phân loại; một số kiến thức Toán học cho khai phá dữ liệu web: Toán học Internet, Mô hình đồ thị, Học máy xác suất Bayes; khai phá sử dụng web: Phân tích mẫu truy nhập Web, Phân tích xu hướng cá nhân;...

Chủ đề:
Lưu

Nội dung Text: Bài giảng Khai phá dữ liệu web: Giới thiệu môn học

  1. BÀI GIẢNG KHAI PHÁ DỮ LIỆU WEB GIỚI THIỆU MÔN HỌC – K18 PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2012 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI 1
  2. Giới thiệu chung về môn học  Tên môn học: Khai phá dữ liệu Web  Số tín chỉ: 2  Tài liệu dạy - học: Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Hà Quang Thụy (chủ biên), Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009). Giáo trình Khai phá dữ liệu Web, NXBGD, Hà Nội, 2009.  Tài liệu làm tiểu luận David Easley, Jon Kleinberg (2010). Networks, Crowds, and Markets: Reasoning about a Highly Connected World, Cambridge University Press.  Tài liệu tham khảo Bing Liu (2011). Web Data Mining: Exploring Hyperlinks, Contents and Usage Data (2nd Edition), Springer. http://www.cs.uic.edu/~liub/ Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy (2012). Giáo trình khai phá dữ liệu, ĐHQGHN. 2
  3. Vị trí của môn học CTĐT ThS HTTT 3
  4. Vị trí của môn học CTĐT ThS HTTT 4
  5. Nội dung môn học • Khai phá Text và khai phá Web: khái niệm, đặc trưng và phân loại • Một số kiến thức Toán học cho khai phá dữ liệu web: Toán học Internet, Mô hình đồ thị, Học máy xác suất Bayes • Khai phá sử dụng web: Phân tích mẫu truy nhập Web, Phân tích xu hướng cá nhân, • Khai phá cấu trúc Web: Khai phá đồ thị Web, Khai phá cấu trúc trang Web • Các phương pháp biểu diễn văn bản và một số vấn đề về xử lý ngôn ngữ tiếng Việt cho khai phá dữ liệu web. • Hệ thống tìm kiếm trên web: Bài toán, Cấu trúc và hoạt động của máy tìm kiếm, Crawling trang web, Phân tích và đánh chỉ số, Tính hạng trang Web, Máy tìm kiếm thực thể • Bài toán phân cụm, đặc điểm, yêu cầu và ứng dụng, độ đo tương tự giữa các trang Web; Các thuật toán phân cụm web điển hình và đánh giá. Một mô hình phân cụm kết quả tìm kiếm và gán nhãn cụm tiếng Việt • Phân lớp web: Bài toán phân lớp web và ứng dụng, Các thuật toán phân lớp: Phân lớp dựa trên hệ thống luật, thuật toán Bayes, cây quyết định, SVM, các thuật toán khác, phân lớp bán giám sát. • Khuynh hướng phát triển của khai phá dữ liệu web. 5
  6. Tổ chức dạy - học  Hình thức dạy-học: - Giáo viên trình bày: 9-10 buổi - Sinh viên trình bày tiểu luận: 5-6 buổi  Hình thức đánh giá và khung điểm - Đánh giá thường xuyên: 4 điểm + Kiểm tra giữa kỳ + Tiểu luận + Chuyên cần và đóng góp xây dựng bài - Thi cuối kỳ: 6 điểm  Thời gian dự kiến: 15 tuần (04/09/2012- 25/12/2012) 6
  7. Giới thiệu sơ bộ về sách tiểu luận  Tác giả: - David Easley, Jon Kleinberg (*) - Cornell University, New York, USA  Các chủ đề chính - Mạng xã hội: mạng, đám đông, hành vi… - Kinh doanh: Thị trường, tiếp thị, đấu thầu… - Lý thuyết trò chơi áp dụng trong kinh doanh  Nội dung: 6 phần chính  Đồ thị và mạng xã hội  Lý thuyết trò chơi  Thị trường và tương tác chiến lược trong mạng  Mạng thông tin và Web  Hệ động lực mạng: mô hình dân cư, mô hình cấu trúc  Tổ chức và tổng hợp hành vi  Lý do lựa chọn - Cung cấp nội dung mở rộng khai phá Web tới mạng xã hội, kinh doanh - Khó khăn: nhiều thuật ngữ xã hội học, kinh tế học… 7
  8. Giới thiệu về các tác giả  Jon Kleiberg:  Trang chủ: http://www.cs.cornell.edu/home/kleinber/  dblp: 184/154 công trình: http://www.informatik.uni- trier.de/~ley/db/indices/a-tree/k/Kleinberg:Jon_M=.html (09/2012)  H-index : 77 (http://arnetminer.org/person/jon-m-kleinberg-386117.html) 41 (http://www.cs.ucla.edu/~palsberg/h-number.html)  Thuật toán tính hạng trang HITS (Hyperlink-Induced Topic Search) [Kle99] Jon Kleinberg (1999). Authoritative sources in a hyperlinked environment. Journal of the ACM, 46(5) : 604-632, November 1999.  J. Kleinberg, E. Tardos (2005). Algorithm Design, Addison Wesley, 2005. http://www.aw-bc.com/info/kleinberg/  David Easley  Trang chủ: http://www.arts.cornell.edu/econ/deasley/  Department of Economics and Information Science Program  dblp: 10/3 công trình: http://www.informatik.uni-trier.de/~ley/db/indices/a-tree/e/Easley:David_A 8 (09/2012)
  9. Nội dung làm việc nhóm tiểu luận  Nhóm tiểu luận - Mỗi nhóm có khoảng 2-3 học viên, có nhóm trưởng - Chịu trách nhiệm hai chương  Nội dung công việc - Đọc nắm bắt được các nội dung cơ bản - Làm (nộp) bài thuyết trình nội dung được phân công - Trình bày bài thuyết trình và trả lời câu hỏi  Trình bày thuyết trình - Mọi sinh viên trong nhóm đều trình bày một phần nội dung - Thời gian: 30 phút cho trình bày + 20 phút cho trả lời - Mọi sinh viên khác đặt câu hỏi (Đặt câu hỏi được tính điểm chuyên cần) 9
  10. Phân công các nhóm  Nhóm 1 - Chương 1. Overview : Tổng quan (I. Lý thuyết đồ thị và mạng xã hội) - Chương 2. Graphs : Đồ thị  Nhóm 2 - Chương 3. Strong and Weak Ties : Liên kết mạnh và yếu - Chương 4. Networks in Their Surrounding Contexts : Mạng trong bối cảnh phụ cận  Nhóm 3 - Chương 5. Positive and Negative Relationships : Quan hệ tích cực và tiêu cực (II. Lý thuyết trò chơi) - Chương 6. Games : Trò chơi 10
  11. Phân công các nhóm  Nhóm 4 - Chương 7. Evolutionary Game Theory : Lý thuyết trò chơi tiến hóa - Chương 8. Modeling Network Traffic using Game Theory : Mô hình hóa giao vận mạng bằng lý thuyết trò chơi  Nhóm 5 - Chương 9. Auctions : Đấu giá (III. Thị trường và chiến lược tương tác trong mạng) - Chương 10. Matching Markets : Phù hợp thị trường  Nhóm 6 - Chương 11. Network Models of Markets with Intermediaries : Mô hình mạng của thị trường với các tác nhân trung gian - Chương 12. Bargaining and Power in Networks : Thương lượng và quyền lực trong mạng 11
  12. Phân công các nhóm  Nhóm 7 (IV. Mạng thông tin và World Wide Web) - Chương 13. The Structure of the Web : Cấu trúc của Web - Chương 14. Link Analysis and Web Search : Phân tích liên kết và tìm kiếm Web  Nhóm 8 - Chương 15. Sponsored Search Markets : Thị trường tìm kiếm tài trợ (V. Hệ động lực mạng: Mô hình dân số) - Chương 16. Information Cascades : Phân tầng thông tin  Nhóm 9 - Chương 17. Network Effects : Hiệu ứng mạng - Chương 18. Power Laws and Rich-Get-Richer Phenomena : Luật số lớn và hiện tượng giàu ngày càng giàu 12
  13. Phân công các nhóm  Nhóm 10 (VI. Hệ động lực mạng: Mô hình cấu trúc) - Chương 19. Cascading Behavior in Networks : Phân tầng hành vi trong các mạng - Chương 20. The Small-World Phenomenon : Hiện tượng thế giới nhỏ  Nhóm 11 - Chương 21. Epidemics : Dịch bệnh (VII. Tổ chức và tích hợp hành vi) - Chương 22. Markets and Information : Thị trường và thông tin  Nhóm 12 - Chương 23. Voting : Biểu quyết / bầu cử - Chương 24. Property Rights : Quyền sở hữu 13
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2