Bài giảng Khai phá dữ liệu web: Giới thiệu môn học
lượt xem 9
download
Bài giảng khai phá dữ liệu web: Giới thiệu môn học sẽ giới thiệu tới các bạn về vấn đề khai phá Text và khai phá Web: khái niệm, đặc trưng và phân loại; một số kiến thức Toán học cho khai phá dữ liệu web: Toán học Internet, Mô hình đồ thị, Học máy xác suất Bayes; khai phá sử dụng web: Phân tích mẫu truy nhập Web, Phân tích xu hướng cá nhân;...
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Khai phá dữ liệu web: Giới thiệu môn học
- BÀI GIẢNG KHAI PHÁ DỮ LIỆU WEB GIỚI THIỆU MÔN HỌC – K18 PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2012 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI 1
- Giới thiệu chung về môn học Tên môn học: Khai phá dữ liệu Web Số tín chỉ: 2 Tài liệu dạy - học: Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Hà Quang Thụy (chủ biên), Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009). Giáo trình Khai phá dữ liệu Web, NXBGD, Hà Nội, 2009. Tài liệu làm tiểu luận David Easley, Jon Kleinberg (2010). Networks, Crowds, and Markets: Reasoning about a Highly Connected World, Cambridge University Press. Tài liệu tham khảo Bing Liu (2011). Web Data Mining: Exploring Hyperlinks, Contents and Usage Data (2nd Edition), Springer. http://www.cs.uic.edu/~liub/ Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy (2012). Giáo trình khai phá dữ liệu, ĐHQGHN. 2
- Vị trí của môn học CTĐT ThS HTTT 3
- Vị trí của môn học CTĐT ThS HTTT 4
- Nội dung môn học • Khai phá Text và khai phá Web: khái niệm, đặc trưng và phân loại • Một số kiến thức Toán học cho khai phá dữ liệu web: Toán học Internet, Mô hình đồ thị, Học máy xác suất Bayes • Khai phá sử dụng web: Phân tích mẫu truy nhập Web, Phân tích xu hướng cá nhân, • Khai phá cấu trúc Web: Khai phá đồ thị Web, Khai phá cấu trúc trang Web • Các phương pháp biểu diễn văn bản và một số vấn đề về xử lý ngôn ngữ tiếng Việt cho khai phá dữ liệu web. • Hệ thống tìm kiếm trên web: Bài toán, Cấu trúc và hoạt động của máy tìm kiếm, Crawling trang web, Phân tích và đánh chỉ số, Tính hạng trang Web, Máy tìm kiếm thực thể • Bài toán phân cụm, đặc điểm, yêu cầu và ứng dụng, độ đo tương tự giữa các trang Web; Các thuật toán phân cụm web điển hình và đánh giá. Một mô hình phân cụm kết quả tìm kiếm và gán nhãn cụm tiếng Việt • Phân lớp web: Bài toán phân lớp web và ứng dụng, Các thuật toán phân lớp: Phân lớp dựa trên hệ thống luật, thuật toán Bayes, cây quyết định, SVM, các thuật toán khác, phân lớp bán giám sát. • Khuynh hướng phát triển của khai phá dữ liệu web. 5
- Tổ chức dạy - học Hình thức dạy-học: - Giáo viên trình bày: 9-10 buổi - Sinh viên trình bày tiểu luận: 5-6 buổi Hình thức đánh giá và khung điểm - Đánh giá thường xuyên: 4 điểm + Kiểm tra giữa kỳ + Tiểu luận + Chuyên cần và đóng góp xây dựng bài - Thi cuối kỳ: 6 điểm Thời gian dự kiến: 15 tuần (04/09/2012- 25/12/2012) 6
- Giới thiệu sơ bộ về sách tiểu luận Tác giả: - David Easley, Jon Kleinberg (*) - Cornell University, New York, USA Các chủ đề chính - Mạng xã hội: mạng, đám đông, hành vi… - Kinh doanh: Thị trường, tiếp thị, đấu thầu… - Lý thuyết trò chơi áp dụng trong kinh doanh Nội dung: 6 phần chính Đồ thị và mạng xã hội Lý thuyết trò chơi Thị trường và tương tác chiến lược trong mạng Mạng thông tin và Web Hệ động lực mạng: mô hình dân cư, mô hình cấu trúc Tổ chức và tổng hợp hành vi Lý do lựa chọn - Cung cấp nội dung mở rộng khai phá Web tới mạng xã hội, kinh doanh - Khó khăn: nhiều thuật ngữ xã hội học, kinh tế học… 7
- Giới thiệu về các tác giả Jon Kleiberg: Trang chủ: http://www.cs.cornell.edu/home/kleinber/ dblp: 184/154 công trình: http://www.informatik.uni- trier.de/~ley/db/indices/a-tree/k/Kleinberg:Jon_M=.html (09/2012) H-index : 77 (http://arnetminer.org/person/jon-m-kleinberg-386117.html) 41 (http://www.cs.ucla.edu/~palsberg/h-number.html) Thuật toán tính hạng trang HITS (Hyperlink-Induced Topic Search) [Kle99] Jon Kleinberg (1999). Authoritative sources in a hyperlinked environment. Journal of the ACM, 46(5) : 604-632, November 1999. J. Kleinberg, E. Tardos (2005). Algorithm Design, Addison Wesley, 2005. http://www.aw-bc.com/info/kleinberg/ David Easley Trang chủ: http://www.arts.cornell.edu/econ/deasley/ Department of Economics and Information Science Program dblp: 10/3 công trình: http://www.informatik.uni-trier.de/~ley/db/indices/a-tree/e/Easley:David_A 8 (09/2012)
- Nội dung làm việc nhóm tiểu luận Nhóm tiểu luận - Mỗi nhóm có khoảng 2-3 học viên, có nhóm trưởng - Chịu trách nhiệm hai chương Nội dung công việc - Đọc nắm bắt được các nội dung cơ bản - Làm (nộp) bài thuyết trình nội dung được phân công - Trình bày bài thuyết trình và trả lời câu hỏi Trình bày thuyết trình - Mọi sinh viên trong nhóm đều trình bày một phần nội dung - Thời gian: 30 phút cho trình bày + 20 phút cho trả lời - Mọi sinh viên khác đặt câu hỏi (Đặt câu hỏi được tính điểm chuyên cần) 9
- Phân công các nhóm Nhóm 1 - Chương 1. Overview : Tổng quan (I. Lý thuyết đồ thị và mạng xã hội) - Chương 2. Graphs : Đồ thị Nhóm 2 - Chương 3. Strong and Weak Ties : Liên kết mạnh và yếu - Chương 4. Networks in Their Surrounding Contexts : Mạng trong bối cảnh phụ cận Nhóm 3 - Chương 5. Positive and Negative Relationships : Quan hệ tích cực và tiêu cực (II. Lý thuyết trò chơi) - Chương 6. Games : Trò chơi 10
- Phân công các nhóm Nhóm 4 - Chương 7. Evolutionary Game Theory : Lý thuyết trò chơi tiến hóa - Chương 8. Modeling Network Traffic using Game Theory : Mô hình hóa giao vận mạng bằng lý thuyết trò chơi Nhóm 5 - Chương 9. Auctions : Đấu giá (III. Thị trường và chiến lược tương tác trong mạng) - Chương 10. Matching Markets : Phù hợp thị trường Nhóm 6 - Chương 11. Network Models of Markets with Intermediaries : Mô hình mạng của thị trường với các tác nhân trung gian - Chương 12. Bargaining and Power in Networks : Thương lượng và quyền lực trong mạng 11
- Phân công các nhóm Nhóm 7 (IV. Mạng thông tin và World Wide Web) - Chương 13. The Structure of the Web : Cấu trúc của Web - Chương 14. Link Analysis and Web Search : Phân tích liên kết và tìm kiếm Web Nhóm 8 - Chương 15. Sponsored Search Markets : Thị trường tìm kiếm tài trợ (V. Hệ động lực mạng: Mô hình dân số) - Chương 16. Information Cascades : Phân tầng thông tin Nhóm 9 - Chương 17. Network Effects : Hiệu ứng mạng - Chương 18. Power Laws and Rich-Get-Richer Phenomena : Luật số lớn và hiện tượng giàu ngày càng giàu 12
- Phân công các nhóm Nhóm 10 (VI. Hệ động lực mạng: Mô hình cấu trúc) - Chương 19. Cascading Behavior in Networks : Phân tầng hành vi trong các mạng - Chương 20. The Small-World Phenomenon : Hiện tượng thế giới nhỏ Nhóm 11 - Chương 21. Epidemics : Dịch bệnh (VII. Tổ chức và tích hợp hành vi) - Chương 22. Markets and Information : Thị trường và thông tin Nhóm 12 - Chương 23. Voting : Biểu quyết / bầu cử - Chương 24. Property Rights : Quyền sở hữu 13
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 7 - ĐH Bách khoa TP.HCM
22 p | 214 | 26
-
Bài giảng Khai phá dữ liệu - Trường ĐH Hàng Hải
73 p | 115 | 22
-
Bài giảng Khai phá dữ liệu trong kinh doanh - ĐH Thương Mại
0 p | 492 | 22
-
Bài giảng Khai phá dữ liệu - Chương 1: Tổng quan về khai phá dữ liệu
61 p | 156 | 16
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 0: Giới thiệu môn học
8 p | 127 | 14
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 8 - ĐH Bách khoa TP.HCM
8 p | 111 | 13
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 0 - Lê Tiến
7 p | 110 | 9
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 1 - Lê Tiến
61 p | 91 | 9
-
Bài giảng Khai phá dữ liệu: Chương 8 - TS. Võ Thị Ngọc Châu
23 p | 80 | 8
-
Bài giảng Khai phá dữ liệu: Chương 1 - TS. Võ Thị Ngọc Châu
63 p | 106 | 8
-
Bài giảng Khai phá dữ liệu: Bài 1 - Văn Thế Thành
7 p | 89 | 5
-
Bài giảng Khai phá dữ liệu - Chương 1: Tổng quan
14 p | 145 | 4
-
Bài giảng Khai phá dữ liệu: Bài 0 - TS. Trần Mạnh Tuấn
10 p | 62 | 4
-
Bài giảng Khai phá dữ liệu: Bài 1 - TS. Trần Mạnh Tuấn
34 p | 67 | 4
-
Bài giảng Khai phá dữ liệu: Bài 2 - TS. Trần Mạnh Tuấn
32 p | 52 | 4
-
Bài giảng Khai phá dữ liệu: Chương 1 - Trường ĐH Phan Thiết
71 p | 41 | 4
-
Bài giảng Khai phá dữ liệu: Chương 4 - Trường ĐH Phan Thiết
70 p | 27 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn