Bài toán khai phá dữ liệu
-
CHƯƠNG 1 Tổng quan về khai phá dữ liệu I. Khai phá dữ liệu (Data Mining) Khai phá dữ liệu (Data mining) là một khái niệm ra đời vào những năm cuối của thập kỷ 80. Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩn trong các tập dữ liệu lớn trong thực tế. Về bản chất, khai phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra các mẫu hình có tính chính quy (regularities) từ các tập dữ liệu lớn...
31p 201630589 23-03-2013 221 64 Download
-
Tài liệu Khai phá dữ liệu Web trình bày tổng quan về khai phá dữ liệu Web; máy tìm kiếm; bài toán phân lớp; hệ thống thử nghiệm. Mời các bạn tham khảo tài liệu để nắm bắt nội dung chi tiết. Với các bạn chuyên ngành Công nghệ thông tin thì đây là tài liệu hữu ích.
54p be_nkin 29-03-2015 135 33 Download
-
Một tập dữ liệu (dataset) là một tập hợp các đối tượng (objects) và các thuộc tính của chúng.Mỗi thuộc tính (attribute) mô tả một đặc điểm của một đối tượngKhái niệm “đối tượng” còn được tham chiếu đến với các tên gọi khác...
35p phuonggm 30-09-2012 406 58 Download
-
Với một tập các giao dịch transactions) cho trước, cần ộ ập g ị ( ) , n tìm các luật dự đoán khả năng xuất hiện trong một giao dịch của các mục (items) này dựa trên việc xuất hiện của các mục khác
47p phuonggm 30-09-2012 160 42 Download
-
Đối với một tập các ví dụ/bản ghi ( instances/records) – gọi là tậộ ập ụ g ) gọ ập huấn luyện/học (training/learning set). Mỗi bản ghi được biểu diễn bằng một tập các thuộc tính, trong đó có một thuộc tính phân lớp (class attribute). Tìm/học một hàm cho thuộc tính phân lớp (hàm phân lớp) đối với các giá trị của các thuộc tính khác.
55p phuonggm 30-09-2012 228 69 Download
-
Một số tên gọi khác của phương pháp học dựa trên các láng giềng gần nhất (Nearest neighbor learning) • Instance-based learning • Lazy learning • Memory-Memory based learning
78p phuonggm 30-09-2012 236 67 Download
-
Học có giám sát (Supervised learning) Tập dữ liệu (dataset) bao gồm các ví dụ, mà mỗi ví dụ được gắn kèm với một nhãn lớp/giá trị đầu ra mong muốn. Mục đích là học (xấp xỉ) một giả thiết (vd: một phân lớp, một hàm mục tiêu,...) phù hợp với tập dữ liệu hiện có. Giả thiết học được (learned hypothesis) sau đó sẽ được dùng để phân lớp/dự đoán đối với các ví dụ mới.
35p phuonggm 30-09-2012 153 40 Download
-
Hướng dẫn phân cụm các dữ liệu thuộc D thành các cụm,Các dữ liệu trong một cụm: “tương tự” nhau , Dữ liệu hai cụm: “không tương tự” nhau .Tiên đề phân cụm: Nếu người dùng lựa chọn một đối tượng d thì họ cũng lựa chọn các đối tượng cùng cụm . Với các cách sau đây bạn dễ dàng phân cụm theo các chức năng khác nhau, chúc các bạn thành công!
22p duylong2091 27-12-2012 209 53 Download
-
Khai phá luệt kết hợp: Tìm tất cả mẫu phổ biến, kết hợp, tương quan, hoặc cấu trú nhanquả trong tập các mục hoặc đối tượng trong CSDL quan hệ hoặc các kho chứa thông tin khác. Mẫu phổ biến (Frequent pattern): là mẫu (tập mục, dãy mục…) mà xuất hiện phổ biến trong 1 CSDL [AIS93]
60p duylong2091 27-12-2012 183 42 Download
-
Đánh giá dữ liệu Định vị một vấn đề trong dữ liệu cần giải quyết: Tìm ra và quyết định cách nắm bắt vấn đề Mô tả dữ liệu sẽ làm hiện rõ một số vấn đề Kiểm toán dữ liệu: lập hồ sơ dữ liệu và phân tích ảnh hưởng của dữ liệu chất lượng kém.
67p duylong2091 27-12-2012 180 32 Download
-
Mời các bạn tham khảo bài giảng chương 3 và 4 khai phá dữ liệu web để các bạn có thể nắm vững một số kiến thức toán học bổ trợ và một số bài toán xử lý ngôn ngữ tự nhiên nền tảng, mời các bạn tham khảo để nắm vững hơn.
43p duylong2091 02-01-2013 268 86 Download
-
Hướng dẫn Biểu diễn web bằng văn bản gồm các bước thật đơn giản để các bạn có thể thực hành dễ dàng hãy tham khảo các bước sao đây thứ nhất: Là bước cần thiết đầu tiên trong xử lý văn bản, Phù hợp đầu vào của thuật toán khai phá dữ liệt, Tác động tới chất lượng kết quả của thuật toán KHDL.
38p duylong2091 02-01-2013 209 82 Download
-
Bài toán tìm kiếm văn bản: Khái niệm; Đánh giá; Tìm kiếm xấp xỉ. Máy tìm kiếm: Công cụ tìm kiếm trên Internet; Một số máy tìm kiếm điển hình; Các thành phần cơ bản; Crawling; Đánh chỉ số và lưu trữ; Tính hạng và tìm kiếm
110p duylong2091 02-01-2013 211 74 Download
-
Phân tích việc mua hàng của khách hàng bằng cách tìm ra những “mối kết hợp” giữa những mặt hàng mà khách đã mua. Bài toán được Agrawal thuộc nhóm nghiên cứu của IBM đưa ra vào năm 1994. Khai phá luật kết hợp: Tìm tần số mẫu, mối kết hợp, sự tương quan, hay các cấu trúc nhân quả giữa các tập đối tượng trong các cơ sở dữ liệu giao tác, cơ sở dữ liệu quan hệ, và những kho thông tin khác. Tính hiểu được: dễ hiểu Tính sử dụng được: Cung cấp thông tin thiết thực Tính hiệu quả: Đã có...
57p trinhvang 18-01-2013 166 50 Download
-
Có thể dùng phân lớp và dự đoán để xác lập mô hình/mẫu nhằm mô tả các lớp quan trọng hay dự đoán khuynh hướng dữ liệu trong tương lai. Phân lớp(classification) dự đoán các nhãn phân loại. Dự đoán (prediction) hàm giá trị liên tục.
41p trinhvang 18-01-2013 180 37 Download
-
Luật kết hợp mô tả các sự kiện xuất hiện cùng nhau trong dữ liệu Ví dụ: "IF khách hàng mua sản phẩm A với số lượng 10 THEN sẽ mua sản phẩm B với số lượng 20. Các luật dãy phổ biến mô tả quan hệ thời gian giữa các sự kiện Ví dụ: IF hôm nay khách hàng mua sản phẩm A THEN sau 1 tuần khách hàng sẽ mua tiếp sản phẩm B và C” Tập R các loại sự kiện. Mỗi sự kiện là một cặp (A, t), với A R là loại sự kiện (ví dụ loại...
37p trinhvang 18-01-2013 96 18 Download
-
Dữ liệu (Data): có thể xem là chuỗi các bit, là số, ký tự…mà chúng ta thu thập hàng ngày trong công việc. Thông tin (Information): là tập hợp của những dữ liệu đã được xử lý, dùng mô tả, giải thích đặc tính của một đối tượng nào đó. Tri thức (Knowledge): là tập hợp những thông tin có liên hệ với nhau, được lập luận chặt chẽ hoặc được thực nghiệm kiểm chứng quan nhiều thế hệ. Tri thức thể hiện tư duy của con người về một vấn đề....
25p trinhvang 18-01-2013 147 23 Download
-
Sự bùng nổ thông tin hiện nay do tác động của các siêu phương tiện và WWW. Các hệ thống truy vấn thông tin dựa trên việc phân nhóm, gom cụm (clustering) ra đời để làm tăng tốc độ tìm kiếm thông tin. Do sự biến động thường xuyên của thông tin nên các thuật toán clustering đang tồn tại không thể duy trì tốt các nhóm, cụm (cluster) trong một môi trường như thế. Vấn đề đặt ra là làm thế nào để cập nhật các cluster trong hệ thống mỗi khi thông tin được cập nhật thay vì phải thường xuyên...
35p trinhvang 18-01-2013 122 23 Download
-
Bài giảng môn học Khai phá dữ liệu: Bài mở đầu - Tổng quan về khai phá dữ liệu trình bày về nhu cầu khai phá dữ liệu, khái niệm về dữ liệu; mẫu; tri thức và khai phá dữ liệu, các bài toán khai phá dữ liệu cơ bản, các giai đoạn trong khai phá dữ liệu, kiến trúc điển hình của một hệ thống khai phá dữ liệu, các nguồn dữ liệu phục vụ cho khai phá và ứng dụng của khai phá dữ liệu.
36p quangtriyeuthuong32 25-04-2014 196 44 Download
-
Mục tiêu cơ bản của chương 2 Luật kết hợp (Association Rules) thuộc bài giảng Khai phá dữ liệu trình bày về khái niệm cơ bản về luật kết hợp, thuật toán Apriori, tìm tập phổ biến tối đại với FP-Tree, phân loại luật kết hợp và tối ưu tập luật.
52p thick_12 12-07-2014 148 31 Download