03/02/17<br />
<br />
BÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆU<br />
CHƯƠNG 1. GIỚI THIỆU CHUNG VỀ KHAI<br />
PHÁ DỮ LIỆU<br />
<br />
PGS. TS. HÀ QUANG THỤY<br />
HÀ NỘI 09-2015<br />
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ<br />
ĐẠI HỌC QUỐC GIA HÀ NỘI<br />
<br />
Nội dung<br />
2.<br />
<br />
Nhu cầu của khai phá dữ liệu (KPDL)<br />
Khái niệm KPDL và phát hiện tri thức trong CSDL<br />
KPDL và xử lý CSDL truyền thống<br />
3.<br />
4.<br />
Kiểu dữ liệu trong KPDL<br />
5.<br />
Kiểu mẫu được khai phá<br />
6.<br />
Công nghệ KPDL điển hình<br />
Một số ứng dụng điển hình<br />
7.<br />
8.<br />
Các vấn đề chính trong KPDL<br />
1.<br />
<br />
1<br />
<br />
1<br />
<br />
03/02/17<br />
<br />
1. Nhu cầu về khai phá dữ liệu<br />
<br />
<br />
Sự bùng nổ dữ liệu<br />
<br />
<br />
Lý do công nghệ<br />
Lý do xã hội<br />
Thể hiện<br />
<br />
<br />
<br />
Kinh tế tri thức<br />
<br />
<br />
<br />
<br />
<br />
<br />
Ngành kinh tế định hướng dữ liệu<br />
<br />
<br />
Phát hiện tri thức từ dữ liệu<br />
<br />
Bùng nổ dữ liệu: Luật Moore<br />
<br />
<br />
<br />
<br />
<br />
Xuất xứ<br />
<br />
Gordon E. Moore (1965). Cramming more components onto integrated<br />
circuits, Electronics, 38 (8), April 19, 1965. Một quan sát và dự báo<br />
<br />
“Phương ngôn 2x<br />
<br />
Số lượng bán dẫn tích hợp trong một chíp sẽ tăng gấp đôi sau khoảng hai<br />
năm<br />
<br />
Chi phí sản xuất mạch bán dẫn với cùng tính năng giảm một nửa sau hai năm<br />
Phiên bản 18 tháng: rút ngắn chu kỳ thời gian<br />
<br />
2<br />
<br />
2<br />
<br />
03/02/17<br />
<br />
Luật Moore & công nghiệp điện tử<br />
<br />
<br />
<br />
<br />
Dẫn dắt ngành công nghệ bán dẫn<br />
<br />
Mô hình cơ bản cho ngành công nghiệp mạch bán dẫn<br />
“Định luật Moore vẫn tạo khả năng cơ bản cho sự phát triển của chúng tôi, và<br />
<br />
nó vẫn còn hiệu lực tốt tại Intel… Định luật Moore không chỉ là mạch bán dẫn.<br />
Nó cũng là cách sử dụng sáng tạo mạch bán dẫn”. Paul S. Otellini, Chủ tịch và<br />
Giám đốc điều hành Tập đoàn Intel<br />
“toàn bộ chu trình thiết kế, phát triển, sản xuất, phân phối và bán hàng được coi<br />
là có tính bền vững khi tuân theo định luật Moore… Nếu đánh bại định luật<br />
Moore, thị trường không thể hấp thụ hết các sản phẩm mới, và kỹ sư bị mất việc<br />
làm. Nếu bị tụt sau định luật Moore, không có gì để mua, và gánh nặng đè lên<br />
đôi vai của chuỗi các nhà phân phối sản phẩm”. Daniel Grupp, Giám đốc PT<br />
công nghệ tiên tiến, Acorn Technologies, Inc. (http://acorntech.com/)<br />
<br />
Thúc đẩy công nghệ xử lý, lưu giữ và truyền dẫn dữ liệu<br />
<br />
Công nghệ bán dẫn là nền tảng của công nghiệp điện tử.<br />
Định luật Moore với công nghiệp phần cứng máy tính: bộ xử lý Intel trong 40<br />
năm qua (trang tiếp theo).<br />
<br />
Bùng nổ về năng lực xử lý tính toán và lưu trữ dữ liệu.<br />
Tác động tới sự phát triển công nghệ cơ sở dữ liệu (tổ chức và quản lý dữ liệu)<br />
và công nghệ mạng (truyền dẫn dữ liệu)<br />
<br />
Luật Moore: Bộ xử lý Intel<br />
<br />
“Another<br />
decade<br />
is<br />
probably<br />
straightforward...There is certainly no<br />
end to creativity”. Gordon Moore, Intel<br />
Chairman Emeritus of the Board<br />
Speaking of extending Moore’s Law at<br />
the International Solid-State Circuits<br />
Conference (ISSCC), February 2003.<br />
<br />
Moore’s Law: Transistor densities on a single<br />
chip double about every two years.<br />
(Source: Intel Web site Moore’s Law: Made Real<br />
by Intel Innovation,<br />
www.intel.com/technology/mooreslaw/?iid=searc<br />
h, accessed January 9, 2008.)<br />
<br />
3<br />
<br />
3<br />
<br />
03/02/17<br />
<br />
Hệ thống ước và bội đơn vị đo<br />
<br />
Giá trị, cách đọc các bội và ước điển hình<br />
<br />
Thiết bị thu thập – lưu trữ dữ liệu<br />
<br />
<br />
Năng lực số hóa<br />
<br />
<br />
<br />
Sloan Digital Sky Survey<br />
<br />
Thiết bị số hóa đa dạng<br />
Mọi lĩnh vực Quản lý, Thương mại, Khoa học…<br />
Một ví dụ điển hình: SDSS<br />
http://www.sdss.org/<br />
Đã tạo bản đồ 3-chiều có chứa hơn 930.000 thiên hà và<br />
hơn 120.000 quasar<br />
<br />
Kính viễn vọng đầu tiên<br />
<br />
Làm việc từ 2000<br />
Vài tuần đầu tiên: thu thập dữ liệu thiên văn học = toàn bộ<br />
trong quá khứ. Sau 10 năm: 140 TB<br />
<br />
Kính viễn vọng kế tiếp<br />
<br />
Large Synoptic Survey Telescope<br />
Bắt đầu hoạt động 2016. Sau 5 ngày sẽ có 140 TB<br />
<br />
4<br />
<br />
4<br />
<br />
03/02/17<br />
<br />
Tiến hóa Công nghệ CSDL: năm 2006<br />
<br />
<br />
<br />
Tiến hóa công nghệ CSDL [HK0106]: Hệ CSDL mở rộng,<br />
KDL & KPDL, Hệ CSDL dựa trên Web<br />
<br />
Tiến hóa Công nghệ CSDL: năm 2011<br />
<br />
<br />
<br />
Tiến hóa công nghệ CSDL [HKP11]: Hệ CSDL mở rộng<br />
và Phân tích dữ liệu mở rộng (có KPDL)<br />
<br />
5<br />
<br />
5<br />
<br />